[ 全体目次 |成果報告書目次 |単語重要度のページ ]


複合語の孤立性に基づく重要性判定プログラム


◆ 概要

「重要複合語の自動判別方法に関する調査・研究」に示したように 二語からなる複合語に関して、その重要性を計る為には その語がいかに複合語としてユニークであるか、換言すれば、 いかにそれが複合語の集合の中で孤立しているか、という尺度が重要である。

そのような観点から、本プログラムは、多数の二語複合語の集合を 前提データとして用いることにより、任意の与えられた二語複合語 の孤立度を計るための基本ツールとして利用できるように設計された。

多数の二語複合語を、ある書式に従って納めたデータファイルを用意し、 それを引数として与えた上で、本プログラムを起動し、次に、孤立度 を計りたい二語複合語を、逐次標準入力から与えることにより、 その最近傍語が出力される仕組みになっている。

実行例

csh> simArB.bin data/test_data.sA             (1)
sim_words dim=67858 dimA=44670 dimB=43993     (2)
simAB Monday:10000 night:10000 n=5            (3)
S0: Monday:10000 night:10000 nXA=337 nAY=50 nXB=39 nBY=54 nmA=18.54 nmB=17.61
A 1 Wednesday:10000 0.626943 ord=1 nAY=60 nXA=328 nmA=20.10 nmAB=53.26
A 2 Thursday:10000 0.576354 ord=2 nAY=47 nXA=305 nmA=18.04 nmAB=50.89
A 3 Tuesday:10000 0.529690 ord=3 nAY=56 nXA=318 nmA=19.48 nmAB=52.55
A 4 Friday:10000 0.480686 ord=4 nAY=52 nXA=308 nmA=18.98 nmAB=51.66
A 5 Saturday:10000 0.425373 ord=5 nAY=35 nXA=217 nmA=15.66 nmAB=43.15
B 1 morning:10000 0.367086 ord=1 nXB=23 nBY=61 nmB=12.68 nmAB=24.36
B 2 afternoon:10100 0.330576 ord=2 nXB=23 nBY=34 nmB=12.90 nmAB=20.19
B 3 nights:00010 0.252678 ord=4 nXB=23 nBY=4 nmB=13.10 nmAB=14.25
B 4 evening:10000 0.232642 ord=5 nXB=22 nBY=33 nmB=12.66 nmAB=19.49
B 5 mourned:01000 0.148287 ord=21 nXB=4 nBY=1 nmB=5.15 nmAB=5.60
S2:

例の説明

◆ プログラムのアーカイブ


「複合語の孤立性に基づく重要性判定プログラム」が (CD の) /release ディレクトリーに収められている。


◆ インストール

◆ 二語複合語データの書式

冒頭の利用例でも示したように、本プログラムを使うためには、 多数の二語複合語を納めたデータファイルが必要となる。
そのファイルは以下のような書式の行で構成され、
左側の語に関してソートされているものを利用する。

(左側の語) (右側の語) (頻度)