◆ 概要
「重要複合語の自動判別方法に関する調査・研究」に示したように 二語からなる複合語に関して、その重要性を計る為には その語がいかに複合語としてユニークであるか、換言すれば、 いかにそれが複合語の集合の中で孤立しているか、という尺度が重要である。
そのような観点から、本プログラムは、多数の二語複合語の集合を 前提データとして用いることにより、任意の与えられた二語複合語 の孤立度を計るための基本ツールとして利用できるように設計された。
多数の二語複合語を、ある書式に従って納めたデータファイルを用意し、 それを引数として与えた上で、本プログラムを起動し、次に、孤立度 を計りたい二語複合語を、逐次標準入力から与えることにより、 その最近傍語が出力される仕組みになっている。
実行例
csh> simArB.bin data/test_data.sA (1) sim_words dim=67858 dimA=44670 dimB=43993 (2) simAB Monday:10000 night:10000 n=5 (3) S0: Monday:10000 night:10000 nXA=337 nAY=50 nXB=39 nBY=54 nmA=18.54 nmB=17.61 A 1 Wednesday:10000 0.626943 ord=1 nAY=60 nXA=328 nmA=20.10 nmAB=53.26 A 2 Thursday:10000 0.576354 ord=2 nAY=47 nXA=305 nmA=18.04 nmAB=50.89 A 3 Tuesday:10000 0.529690 ord=3 nAY=56 nXA=318 nmA=19.48 nmAB=52.55 A 4 Friday:10000 0.480686 ord=4 nAY=52 nXA=308 nmA=18.98 nmAB=51.66 A 5 Saturday:10000 0.425373 ord=5 nAY=35 nXA=217 nmA=15.66 nmAB=43.15 B 1 morning:10000 0.367086 ord=1 nXB=23 nBY=61 nmB=12.68 nmAB=24.36 B 2 afternoon:10100 0.330576 ord=2 nXB=23 nBY=34 nmB=12.90 nmAB=20.19 B 3 nights:00010 0.252678 ord=4 nXB=23 nBY=4 nmB=13.10 nmAB=14.25 B 4 evening:10000 0.232642 ord=5 nXB=22 nBY=33 nmB=12.66 nmAB=19.49 B 5 mourned:01000 0.148287 ord=21 nXB=4 nBY=1 nmB=5.15 nmAB=5.60 S2:
例の説明
◆ プログラムのアーカイブ
「複合語の孤立性に基づく重要性判定プログラム」が (CD の) /release ディレクトリーに収められている。
◆ インストール
◆ 二語複合語データの書式
冒頭の利用例でも示したように、本プログラムを使うためには、
多数の二語複合語を納めたデータファイルが必要となる。
そのファイルは以下のような書式の行で構成され、
左側の語に関してソートされているものを利用する。
(左側の語) (右側の語) (頻度)