★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★ ★                               ★ ★ 本ツールの利用は、「毎日新聞データ使用許諾に関する覚書」を ★ ★ 毎日新聞社と交わしたCD−毎日新聞データ集購入者が、覚書に ★ ★ 定める制約内で利用する場合に限ります。           ★ ★                               ★ ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★ mai-cvt (2001.02.18) ~~~~~~~ 本パッケージはCD−ROM版「毎日新聞」の .txt ファイルから 「geta 付録の検索キット」で必要となる下記のデータ[1]と[2]を 自動的に作成し、また[3]の実行ファイルの一例を提供するものです。 [1] 対象文書セットのタイトルのリストを所定の書式(*1)で記入したファイル [2] 文書毎の単語頻度を所定の書式(*2)で記入したファイル [3] 文書ID(*3)を受け取って文書本文をWebBrowserで表示できるHTML ファイルを出力する実行ファイル (*1,*2,*3) ■ 付録 を参照ください。 ■ 利用環境 0. CD−ROM版毎日新聞の .txt ファイルを適当な directory に置いてください。 以下の説明では、98年の .txt ファイル(2ファイル)を使うと仮定します。 1. 形態素解析 プログラム中で日本語形態素解析を利用しますので、次のいづれかを あらかじめ利用可能としておいてください。 照会、入手先 - CHASEN(奈良先端大) http://cactus.aist-nara.ac.jp/lab/nlt/NLT.html - JUMAN (京大) http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/ - ANIMA (日立) e-mail: hirofumi@harl.hitachi.co.jp (担当 櫻井) 2. その他、存在を前提とする汎用的なプログラム - perl および jperl - 日本語文字コードの変換プログラム (nkf や kconv など) ■ 利用方法 1. mai-cvt-(version number).tgz を適当な directory で gzip および tar 等を用いて展開してください。 2. mai-cvt という directory ができますので、そこへ移動してください。 3. txt という空の directory がありますので、そこに使用する .txt ファイルをコピーしたり、リンクを張ったりしてください。 (コピーあるいはリンクの名前は元の名前と同じでも違っていても 構いません。) (例) (txt directory に行って) > cp /cdrom/mai98a.txt . > ln -s /cdrom/mai98b.txt . 4. Makefile の設定を行います。(Makefile の中にも説明があります。) 4.1 TXTs という変数にさきほど txt directory に コピーしたり リンクを張ったファイル名 (txt directory でのファイル名) を設定してください。複数使用の場合は空白で区切って並べてください。 (例) TXTs=mai98a.txt mai98b.txt TXTs=mai96.txt mai97.txt 4.2 DATA_NAME という変数に作成するデータセットの名前を付けてください。 (使用文字は 0-9, A-Z, a-z および - と _ に限ります。) (例) DATA_NAME=mai98 DATA_NAME=mai96-97 4.3 使用する日本語形態素解析器のタイプを3つの選択肢の中から選んで ください。 (例) JMORPH_TYPE=chasen #JMORPH_TYPE=juman #JMORPH_TYPE=anima 4.4 同じく日本語形態素解析器のパス名を指定してください。 (例) JMORPH=/usr/local/bin/chasen JMORPH=/usr/local/bin/juman3.x 4.5 日本語文字コード変換 (S-JIS から EUC) のコマンドを指定してください。 (例) JCONV_SE=nkf -Se JCONV_SE=kconv se 5. 5.1 make init を実行してください。 C のプログラムが compile され、実行ファイルが bin directory の下に置かれます。 5.2 make test を実行してください。 テストとして3記事のみを対象として頻度ファイル (.frq) と タイトルファイル (.ttl) を作成し、 また最初の文書の HTMLファイルを test.html に出力します。 5.3 make all を実行してください。 全ての記事を対象として頻度ファイルとタイトルファイルを作成します。 6.「geta 付録の検索キット」では タイトルファイル (.ttl のファイル) 頻度ファイル (.frq のファイル) と HTML化プログラム mk-html の三つを使いますので、必要に応じて これらを移動/コピーしてください。 なお、その際 txt のファイルやリンクおよび、リンク先のファイルは 残しておいてください。(本文表示の際に見に行きます。) ■ 付録 【文書の識別子の形式】 各文書の識別子としては以下のような4つ組を用いた。 <所属ファイルのパス名> <バイト数> <行数> これは、その文書が所属ファイルの先頭から offset バイトを 読み飛ばした所から <行数> 分に書かれており、 その合計バイト数が <バイト数> であることを示している。 本ツールを実行すると頻度ファイル(mai9X.frq)やタイトルファイル (mai9X.ttl)よりも先に mai9X.alf というファイルが生成されるが これは以下のように文書識別子のリストである。 [mai95.alf] mai95.txt 0 4007 87 mai95.txt 4007 2984 112 mai95.txt 6991 2885 113 : : 【頻度データファイル (.frq) の書式】 以下のように先頭が @ で始まる文書の識別の行で始まり、 その文書に含まれる単語とその頻度のリストが続く。 @<文書-Aの識別子> <単語-Xの頻度> <単語-X> : : <単語-Zの頻度> <単語-Z> @<文書-Bの識別子> <単語-X'の頻度> <単語-X'> : : <単語-Z'の頻度> <単語-Z'> @<文書-Cの識別子> : : 【タイトルファイル (.ttl) の書式】 先頭が % で始まる文書の識別の行と 先頭が'空白' で始まるタイトル行で構成される。 %<文書-Aの識別子> <文書-Aのタイトル> %<文書-Bの識別子> <文書-Bのタイトル> %<文書-Cの識別子> : : 注意:頻度データとタイトルファイルにおける文書の識別子の並びは 順序も含めて完全に一致していなければならない。 ~~~~~~~~~~~~~~~~~~~~~~~~~ 以上。