補助ツール
『毎日新聞』用頻度データ作成ツール
本ツールの利用は、「毎日新聞データ使用許諾に関する覚書」を 毎日新聞社と交わしたCD−毎日新聞データ集購入者が、覚書に 定める制約内で利用する場合に限ります。
説明
mai-cvt_200102.tgz
『日本経済新聞』用頻度データ作成ツール
本ツールの利用は、「言語研究用使用許諾契約書」を日本経済新聞社 と交わした日本経済新聞CD−ROM版の購入者が、覚書に定める制 約内で利用する場合に限ります。
説明
nik-cvt_200102.tgz
注意
日本語形態素解析器として ChaSen「茶筌」(※)を利用する場合、 Makefile 中の SEP の値の変更をお願いします。
文書区切りとして用いる文字列を定義していますので、テキスト中に 現れない文字列でかつ形態素解析で切れないもの、というのが条件です。 (例: @@@@@@@@@@, arienaitango など)
なお、古いバージョンの ChaSen をお使いの場合には変更なしで大丈夫な場合もあります。
※ 形態素解析システム ChaSen「茶筌」は、 奈良先端科学技術大学院大学 情報科学研究科
自然言語処理学講座
が開発し、 公開しているソフトウェアです。