特徴度指数多重比較は、複数のグループの単語リストを集計して、1 つのグループを対照コーパス、残りのグループの合計を参照コーパスとして、対照コーパスのグループの単語のキーワード分析をする機能です。理論的根拠はなく、実感的な実装となっています。
対照コーパスとなるグループ以外のグループの頻度を単純に合計するため、同じコーパスのサブコーパス間で比較を行う場合は、粗頻度で問題はないと思いますが、異なるコーパスを組み合わせる場合は、参照コーパスとなるグループの合計がコーパスサイズの違いの影響を受けるため、すべて同じコーパスサイズとして考えるということで、相対化頻度で集計した方がいいでしょう。
手順としては、頻度集計の相対化の有無は異なりますが、それ以外はどちらも同じなので、まずは、1 つのコーパスのサブコーパス間の比較から説明します。
ここでの例で使うコーパスは FROWN コーパスで、15 ファイル、つまり、15 のサブコーパスで構成されています。まずは、ファイル情報の単語頻度で、ファイルごとの粗頻度の単語リストを作成します。相対頻度の設定は、ファイル情報の単語頻度のページを参照してください。
メニューの統計にあるファイル情報で特徴度指数多重比較を選びます。
パネルが開いたら、統計値と最低合計頻度を設定し、実行ボタンをクリックします。
それぞれの列は、その列のグループを対照コーパスとして、残りのファイルの頻度の合計を参照コーパスとしてキーワード分析を行った結果です。ここでは、統計値に Log-Likelihood (Ratio) を選んで、最低合計頻度を 10 にした結果です。FROWN_A の列のヘッダをクリックして、FROWN_A ファイルの Log-Likelihood の値が降順になるように並べ替えています。
次に、異なるサイズのコーパスでこの機能を使った例を紹介します。
ここでは、4 つのファンタジー小説のシリーズを扱います。下の頻度集計の結果を見て分かるようにそれぞれのコーパスの大きさが異なるため、相対頻度で集計しています。ただ、そもそも、対数尤度比やカイ二乗検定は粗頻度を扱うことを前提にしているようなので、この方法は研究で用いるには慎重な検討が必要でしょう。ここでは実験的に何ができるのかを見ていくということになります。
まずは、4 つのファンタジー小説のコーパスで、グループ分けをコーパス・データベースにして、相対頻度で単語リストを作成します。
まずはこのまま多重比較を行います。メニューの統計にあるファイル情報で特徴度指数多重比較を選びます。
ここでは、コーパスの大きさを考えて、あまり頻度の少ないものを特徴語として扱うことには疑問が残るので、ここでは、最低頻度 5 で統計は Log-Likelihood (対数尤度比) を選びます。
Harry Potter の統計値で並べ替えた結果を見て分かるように、異なるシリーズのファンタジー小説を比較しているので、当然の如く、そのコーパスだけに現れる単語が上位になっています。これはこれで特徴語として扱うことに問題はないのですが、それならば、そのコーパスでしか使われていない単語を抽出するのと変わりがありません。
そこで、ファイル情報の単語リストをすべてのコーパスで出現する単語だけに絞り込む作業を行います。
ファイル情報には、Word Count のように、重複する単語だけに絞り込む機能はないので、別の方法を試します。
単語リストを作成した状態で、メニューのツールから単語リスト抽出を選びます。
単語リスト抽出ウィンドウが開いたら、左上のポップアップボタンでファイル情報 - 共通を選びます。これは、ファイルリストのテーブルにある単語リストから、共通の単語を抽出する機能です。最低グループ数にチェックを入れて、数値を入力すると、すべてのグループに共通するのではなく、その数以上のグループで出現する単語が残ります。チェックを入れないと、すべてのグループに共通する単語のみが残ります。
ここでは、すべてのコーパスに共通する単語を抽出したいので、チェックを入れずに抽出ボタンをクリックします。
これで、すべてのコーパス (グループ) に共通する単語が抽出されたので、すべてを選んで、コンテクストメニューから、選択した項目をコピーを選びます。これで、抽出された、すべてのコーパスで出現する単語がコピーされます。選択した行をコピーを選ぶと、頻度もコピーされます。
ここで、ファイル情報に戻り、フィルタを開いて、コピーした単語をペーストして、処理をクリックします。
これで、すべてのコーパスに共通する単語のみが残っているはずなので、もう一度、メニューから特徴度指数多重比較を選ぶか、閉じていなければ、ファイル情報キーワード統計のウィンドウを選びます。
ここで、もう一度処理を実行すると、先ほどとは異なる結果が得られます。