ファイル情報の単語頻度は、ファイルごとおよびコーパス・データベースごとの単語・n-gram の頻度を集計するモードです。
単語もしくは 2-gram から 5-gram までのリストが作成できます。ただし、ファイルもしくはコーパス・データベースの数が多くなると、特に n-gram では多くのメモリが必要となるため、あまり多くのファイルを扱うことを想定していません。ただ、100–200 ファイルで数百万語のコーパス程度ではまったく問題にならないとは思います。例えば、BNC Sampler の 184 ファイル、約 200 万語のコーパスでは、コンテクストタグなどを利用しない場合、1 秒未満で作成が終わりました。
デフォルトでは、テーブル上に表示されるのは 200 番目までの単語・n-gram で、右上の検索ボックスの左にその数が表示されています ([ ] 内は Group 列と Total 列を合わせた合計列数です)。これは、列数が多くなるとスクロール時の動作が非常に緩慢になって実用に耐えなくなるための処理です。使用される単語数が限られる小さなコーパスで全体を表示させたい場合などはこの制限を外す、もしくは、表示列を多くすることもできます。
設定の File Info 1 で、表示にあるテーブルに表示する列を制限のチェックを外してすべてを表示するか、列数を増やすことで、より多くの情報をテーブルに表示させることができます。
同じく設定の File Info 1 で、表示にあるコーパス名にチェックを入れて、コーパス名のみを選ぶと、結果表示のファイル名の横にコーパス名の列が表示されます。ファイル名と統合を選ぶと、ファイル名とコーパス名を統合した名前が表示されます。これは、ファイル名にコーパス・データベース名が入っていない場合に、結果の利用の際にコーパス・データベース名を識別できるようにするためです。ここでの例では、ファイル名にコーパス名が入っているので、コーパス名が重複しています。
ファイル情報の単語・n-gram 作成でも、Word Count と同様に頻度の相対化オプションがあります。設定の File Info 2 にある単語頻度・XML 項目頻度で、頻度の相対化にチェックを入れて、基準語数を入力します。
ファイルごとの頻度で並べ替えにチェックを入れると、各ファイルでの頻度順に単語が並び替えられます。
集計する文字列の単位も Word Count と同様に選択できます。また、文字での n-gram リストを作成する場合は、デフォルトでは同じ単語ないの n-gram を集計しますが、単語の境界を超えて前後の単語の文字も含めて n-gram を集計します。
単語・n-gram リストは作成後にフィルタをかけて特定の単語のみを抽出することができます。
上部のフィルタボタンをクリックすると、フィルタリストパネルが表示されます。
ここでは、テーブル下の読込ボタンをクリックして表示されるテキストエリアに単語・n-gram を一行 1 項目で入力し、読み込みボタンをクリックします。
これで処理ボタンをクリックすると、フィルタ処理が実行されます。ちなみに、FROWN コーパスは、データの収集が 1992–1996 で、ほとんどが民主党政権だったためか、republic よりも democratic の方が多くなっています (実際はそれ以外に用法も含まれているため、確認するまでははっきりわかりませんが)。
フィルタ処理のその他のオプションは次のとおりです。
ペーストボタン
他のアプリケーションなどで作成したリストをコピーしてこのボタンをクリックすると、テーブルにそのリストが貼り付けられます。
逆レマ化
このボタンをクリックすると、リスト上の単語がレマリストのレマである場合に、レマリストの情報を使って、レマに含まれる単語を合わせて集計するような処理がされます。
このリストの形式と同様に、-> の左側にラベル、右側にそのラベルに含む単語をコンマ区切りで入力すると、レマでなくても、単語を集計して表示できます。
ラベル->単語1,単語2,単語3,...
この逆レマ処理をしたリストでフィルタをかけると、次のような結果になります。ここでの結果を見ると、同志だけではなく、助動詞としての役割を持つ have の頻度が圧倒的に多いことがわかりますね。
行合計にチェックを入れると、Total 列の値がそのファイルの総語数ではなく、フィルタで残った列の合計になります。
標準化 (相対化) にチェックを入れると、% あるいは指定語数ごとの相対頻度 (per) に変換されます。相対頻度 (per) の場合は、設定の File Info 2 にある単語頻度・XML 項目頻度で頻度の相対化 (per) の基準語数が適用されます。
Total がそのファイルの総語数かフィルタで残った単語の合計数かによって、割合の表示が異なります。
正規表現にチェックを入れると、正規表現を使ってフィルタを作成できます。文字区別にチェックを入れると、正規表現で大文字小文字の区別がされるようになります。
おまけ的な機能として、そのファイル・コーパス・データベースに単語が含まれている (1) か含まれていない (0) かの 2 値に置き換えることができます。テーブルの上にあるバイナリボタンをクリックしてください。