GLOSSARY
- ・CI
- WAMの属性データベース, libci によりアクセスされる.
CI はテキスト形式であり,
テキストエディタにより容易に作成することができる.
標準のパス名は $GETAROOT/etc/ci.conf.
- ・CW
- WAM の行や列の名前の辞書, libcw によりアクセスされる.
標準のパス名は$GETAROOT/data/$handle/cw.[rc].
- ・GETA
- Generic Engine for Transposable Association のアクロニム.
- ・GEMU
- GETA 本体ではないが, あると便利なツールをまとめたもの.
- ・getamu
- GETA ライブラリで用いられている雑多な関数のライブラリ.
getamu の関数で, GETA ライブラリで用いられていないものもあるが,
それらは GETA アプリケーション作成に利用されることが多いと思われるものである.
- ・ID
- WAM の要素をインデクスするための整数.
WAM の行, 列ごとに(外部表現である) name との対応表があり,
libcw により相互変換することができる.
- ・nil
- ID が 0 であり対応する name がない特別な ID.
- ・TF, 頻度
- 要素と同じ. GETA で想定している WAM の使い方の一つに, 「行が文書, 列が単語, i行j列の要素を文書iに単語jが現れる回数にする」, というものがあり, この呼び方はそこから来ている.
- ・WAM
- GETA で扱う行列のインスタンス.
行列の実体および, その属性集合から構成される.
libwam により直接操作することができる.
- ・XR
- WAM の行や列を圧縮したデータ, libxr によりアクセスされる.
標準のパス名は$GETAROOT/data/$handle/xr.{rc}.
- ・name
- IDのに対応付けられた綴りであり, WAM の外部表現において用いられる.
- ・行ベクタ, 列ベクタ
- GETA では扱う行列が比較的疎であることを仮定している.
機能的には行と列のIDiとjを指定して WAM のij要素にアクセスできれば完備であるが,
多くの GETA アプリケーションでは
ある1行やある1列を走査することが多いと思われる.
そこで GETA では WAM の
行および列ベクタについて, その値が 0 で無い要素のみを集めた配列を扱うことで
効率およびプログラミングの容易さを達成している.
- ・行列
- 数学で言う行列とほとんど同じ.
最大の違いは, GETA では, 行列のインデックス(mijのiとかjのところ)として自然数ではなく, IDを使うことである.
WAM の全ての行および列には ID が対応付けられており,
これにより要素を指定する.
実の所, ID は小さい順に詰まった整数であり, 整数で代用可能である.
- ・ハンドル(ハンドル名)
- WAM のインスタンスを識別するための名前.
実装では WAM の属性として handle があり, その値が
その WAM のハンドル名になる.
- ・頻度ファイル(freqfile)
- WAM の外部表現形式.
行指向のファイルで,
WAM 行列を行方向に走査して展開したもの.
WAM の行の名前を示す行と
その行の値が0でない要素を1行に1要素書いた行の連続が,
WAM の行数回繰り返されて構成されている.
行と列はそれぞれIDに対応するnameを用いて示される.
- ・要素
- 数学で言う行列の要素とほぼ同じ.
ただし, GETA が扱う行列の要素は(基本的には)整数値のみである.
現実装では,
圧縮モードで0 .. 228-1, 非圧縮モードで0 .. 231-1の範囲の整数が使用可能である. (非圧縮モードで, 注意すれば0 .. 232-1まで利用可能.
同じく, 実数を扱いたい場合, 4 バイトの幅があるので,
トリックを使えば何とかなる?)