★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★ ★                                 ★ ★ 本ツールの利用は、「言語研究用使用許諾契約書」を日本経済新聞社 ★ ★ と交わした日本経済新聞CD−ROM版の購入者が、覚書に定める制 ★ ★ 約内で利用する場合に限ります。                 ★ ★                                 ★ ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★ nik-cvt (2001.02.18) ~~~~~~~ 本パッケージはCD−ROM版「日経新聞」の dat/kiji.dat ファイルから 「geta 付録の検索キット」で必要となる下記のデータ[1]と[2]を 自動的に作成し、また[3]の実行ファイルの一例を提供する。 [1] 対象文書セットのタイトルのリストを所定の書式(*1)で記入したファイル [2] 文書毎の単語頻度を所定の書式(*2)で記入したファイル [3] 文書ID(*3)を受け取って文書本文をWebBrowserで表示できるHTML ファイルを出力する実行ファイル (*1,*2,*3) ■ 付録 を参照ください。 ■ 利用環境 0. 日経新聞のCD−ROMの kiji.dat を読める状態にしてください。 (以下の説明では、98年の kiji.dat ファイルを使うと仮定します。) 1. 形態素解析 プログラム中で日本語形態素解析を利用しますので、次のいづれかを あらかじめ利用可能としておいてください。 照会、入手先 - CHASEN(奈良先端大) http://cactus.aist-nara.ac.jp/lab/nlt/NLT.html - JUMAN (京大) http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/ - ANIMA (日立) e-mail: hirofumi@harl.hitachi.co.jp (担当 櫻井) 2. その他、存在を前提とする汎用的なプログラム - perl および jperl - 日本語文字コードの変換プログラム (nkf や kconv など) ■ 利用方法 1. nik-cvt-(version number).tgz を適当な directory で gzip および tar 等を用いて展開してください。 2. nik-cvt という directory ができますので、そこへ移動してください。 3. txt という空の directory がありますので、そこに使用する kiji.dat ファイルをコピーしたり、リンクを張ったりしてください。 (コピーあるいはリンクの名前は元の名前と同じでも違っていても 構いません。) (例) (txt directory に行って) > cp /cdrom/dat/kiji.dat nikkei-1998.dat > ln -s /cdrom/dat/kiji.dat nikkei-1998.dat 4. Makefile の設定を行います。(Makefile の中にも説明があります。) 4.1 TXTs という変数にさきほど txt directory に コピーしたり リンクを張ったファイル名 (txt directory でのファイル名) を設定してください。複数使用の場合は空白で区切って並べてください。 (例) TXTs=nikkei-1998.dat 4.2 DATA_NAME という変数に作成するデータセットの名前を付けてください。 (使用文字は 0-9, A-Z, a-z および - と _ に限ります。) (例) DATA_NAME=nikkei-1998 DATA_NAME=nk98 4.3 使用する日本語形態素解析器のタイプを3つの選択肢の中から選んで ください。 (例) JMORPH_TYPE=chasen #JMORPH_TYPE=juman #JMORPH_TYPE=anima 4.4 同じく日本語形態素解析器のパス名を指定してください。 (例) JMORPH=/usr/local/bin/chasen JMORPH=/usr/local/bin/juman3.x 4.5 日本語文字コード変換 (S-JIS から EUC) のコマンドを指定してください。 (例) JCONV_SE=nkf -Se JCONV_SE=kconv se 5. 5.1 make init を実行してください。 C のプログラムが compile され、実行ファイルが bin directory の下に置かれます。 5.2 make test を実行してください。 テストとして3記事のみを対象として頻度ファイル (.frq) と タイトルファイル (.ttl) を作成し、 また最初の文書の HTMLファイルを test.html に出力します。 5.3 make all を実行してください。 全ての記事を対象として頻度ファイルとタイトルファイルを作成します。 6.「geta 付録の検索キット」では タイトルファイル (.ttl のファイル) 頻度ファイル (.frq のファイル) と HTML化プログラム mk-html の三つを使いますので、必要に応じて これらを移動/コピーしてください。 なお、その際 txt のファイルやリンクおよび、リンク先のファイルは 残しておいてください。(本文表示の際に見に行きます。) ■ 付録 【文書の識別子の形式】 各文書の識別子としては以下のような4つ組を用いた。 <所属ファイルのパス名> <バイト数> <行数> これは、その文書が所属ファイルの先頭から offset バイトを 読み飛ばした所から <行数> 分に書かれており、 その合計バイト数が <バイト数> であることを示している。 本ツールを実行すると頻度ファイル(nikkei-19XX.frq)やタイトルファイル (nikkei-19XX.ttl)よりも先に nikkei-19XX.alf というファイルが生成されるが これは以下のように文書識別子のリストである。 [nikkei-1998.alf] nikkei-1998.dat 3805200 760 -1 1 nikkei-1998.dat 3805960 920 -1 2 nikkei-1998.dat 3806880 1320 -1 3 : : 【頻度データファイル (.frq) の書式】 以下のように先頭が @ で始まる文書の識別の行で始まり、 その文書に含まれる単語とその頻度のリストが続く。 @<文書-Aの識別子> <単語-Xの頻度> <単語-X> : : <単語-Zの頻度> <単語-Z> @<文書-Bの識別子> <単語-X'の頻度> <単語-X'> : : <単語-Z'の頻度> <単語-Z'> @<文書-Cの識別子> : : 【タイトルファイル (.ttl) の書式】 先頭が % で始まる文書の識別の行と 先頭が'空白' で始まるタイトル行で構成される。 %<文書-Aの識別子> <文書-Aのタイトル> %<文書-Bの識別子> <文書-Bのタイトル> %<文書-Cの識別子> : : 注意:頻度データとタイトルファイルにおける文書の識別子の並びは 順序も含めて完全に一致していなければならない。 ~~~~~~~~~~~~~~~~~~~~~~~~~ 以上。