GETA を利用するために必要な資源について

ハードウェア

現在, GETA は, FreeBSD 4.2-RELEASE (i386)で開発しています. したがって, FreeBSD 4.2-RELEASE が動く PC-AT 互換機ならば 問題無くインストールし, 使うことができるでしょう. 例えば, 開発者の一人が開発に使用しているマシンは CPU が Celeron 366MHz, 主記憶が 320MByte のノートパソコンです. このマシンで, (データがメモリに乗ってしまえば) 新聞1年分を対象としたキーワード検索はサブ秒オーダ, 文書連想でも1〜2秒で行うことができます. 私の経験では, CPU や主記憶装置へのアクセス速度もさることながら, 主記憶が, (扱うWAM が納まるぐらい)十分大きいことが検索速度に 大きく影響しました.

GETA 自体をインストールするためには 10MByte ほどのディスクで十分です. それよりデータの方が問題で, 例えば新聞1年分(200〜400MByte のテキスト)の ストップワードを抜いた WAM をセットアップするために, 150 〜 300 MByte の中間ファイルを作成する必要があり, さらに作成された WAM が 100M Byte 程度になります. 中間ファイルが完成すれば(本文を参照する必要が無ければ) オリジナルのテキストは消せますし, WAM が完成すれば(簡単に再生することができるでしょうから) 中間ファイルは消しても構わないので, 瞬間的には, 700MByte ほど, インストール完了後は(新聞程度の) WAM 1つにつき 100MByte ほど必要ということになります.

OS

前述の様に, GETA は FreeBSD 4.2-RELEASE で開発しています. GETA のソースコードは, 比較的素直にかいたつもりですので, 様々な Linux のディストリビューションで容易に動作させることが可能と思われます. また, 現在はテストされていませんが, FreeBSD 2.X, 3.X にもおそらくインストール可能です. その他, UNIX 系 OS には比較的容易に移植が可能であると思われます. ただし, 移植を行うにあたってはライセンスにご注意下さい. これまでに動くと思われている環境の一覧はこちらをご覧下さい.

ソフトウェア

システムソフトウェアとして, GETA 本体をコンパイルするのに C コンパイラが必要です. また, makefile が pmake 用ですので, インストールには pmake が必要です. その他, UNIX の標準的なコマンドをスクリプトが参照します. manpage は日本語(EUCコード, ソースはJIS/EUCコード)で書かれていますので, 日本語 manpage が読める man コマンドが必要になります. perl5 インタフェースをインストールする場合, (インストールするためにも) perl5 が必要になります. 以下は開発時に使用した perl と jperl のバージョンです.

これ以下のバージョンでは一部不具合が発生することが確認されています.

チュートリアルと, 付録の WAMセットアップツールと検索システムでは, ユーザアプリケーションソフトウェアとして 日本語形態素解析器や文字コードコンバータが必要です. 以下は一例です.