ファイル情報での標準特徴度指数は、いわゆるキーワード統計を利用したキーワード抽出の方法で、Word Count のキーワード抽出での 2 つのコーパスを比較したキーワード分析を行うものです。
ファイル情報でキーワード分析を行うには、参照コーパスを決めて、参照コーパスに対してのキーワード統計値を計算するという手順になります。
参照コーパスをどのように設定するかを含めて、例を示しながら説明していきます。いずれの場合も、ファイル情報の単語頻度で単語リストを作成してから、メニューの統計にあるファイル情報から、標準特徴度指数を選びます。
1 つの方法は、単純に、ファイル情報のグループの 1 つを参照コーパスとして扱う方法です。まずは、複数のコーパスで単語リストを作成し、1 つを参照コーパスとする手順を示します。
ここでは、BNC Sampler Written というラベルをつけた、BNC Sampler の約 100 万語のイギリス英語の書き言葉のサブコーパスと同じくイギリス英語のコーパスである FLOB を利用します。このうち、BNC Sampler Written を参照コーパスとして扱い、FLOB の 15 あるファイルそれぞれをサブコーパスとして参照コーパスと比較します。
ファイル情報で単語頻度を使って単語リストを作りますが、グループ分けで、BNC Sampler Written は、1 つのコーパスとして、FLOB は、ファイルごとにサブコーパスとして集計したいので、グループ分けで混合を選びグループ指定ボタンをクリックします。
表示されるリストで、BNC Sampler Written のグループ分けをコーパス・データベースに変更して右下の閉じるをクリックします。
次に、設定の File Info 2 にある単語頻度・XML 項目頻度で、頻度の相対化のチェックを外し、粗頻度で集計するように設定します。
これで、実行をクリックして単語リストを作成すると、BNC Sampler Written は 1 つのグループとして、FLOB は、ファイルごとのサブコーパスとして単語リストが作成されます。
ここで、メニューの統計にあるファイル情報で標準特徴度指数を選びます。
ファイル情報キーワードパネルが表示されるので、使いたい統計と参照コーパスを選んで、処理をクリックします。それぞれの統計値については、Word Count のキーワード抽出を参照してください。
BNC Sampler Written を参照コーパスとした、それ以外のグループの単語の統計値が表示されるので、並べ替えて確認します。この例では、FLOB_A から FLOB_R までの 15 ファイル (FLOB のサブコーパス) それぞれと BNC Sampler Written コーパスでキーワード分析が行われた結果が表示されています。
この結果は、ウィンドウ左上の書き出しをクリックすることで、タブ区切りのプレインテキストファイルとして保存できます。
また、テーブルで単語を選び、コンテクストメニューから選択した行のデータあるいは選択した項目 (単語) をコピーできます。
ファイル情報と単語頻度の結果の 1 つのグループを参照コーパスとして扱う以外に、Word Count の「左テーブル」のリストを参照コーパスとして利用することができます。
この機能は、当該ファイルを含むコーパス全体とコーパスの各ファイルとを比較したり、大きな一般コーパスの単語リストを Word Count のテーブルに読み込んで参照コーパスとして使いたい場合などを想定しています。
まずは、Word Count の左テーブルで、参照コーパスとして扱いたいコーパスの単語リストを作るか、既存の単語リストのファイルを左テーブルに読み込みます。ここでは、FROWN コーパス全体の単語リストを作成しました。
ファイル情報では、単語リストを作成します。ここでは、FROWN コーパスのファイル (サブコーパス) ごとの単語頻度を集計しました。
ここで、メニューの統計からファイル情報にある標準特徴度指数を選びます。
開いたファイル情報キーワードパネルで、Word Count 左テーブルのリストを使うにチェックを入れます。
これで処理ボタンをクリックすると、Word Count の単語リスト (FROWN) に対してそれぞれのグループのリストと比較してキーワード統計値が算出されます。
どちらの場合でも、この方法の問題は、対数尤度比 (Log-Likelihood Ratio) やカイ二乗検定などでは、2 つのコーパスの比較でさえ単語数分だけ検定が繰り返されるため第一種の過誤の確率が高くなるという問題があるのに、さらに複数のコーパスで検定を繰り返すことにあります。そのため、統計的に有意かどうかで判断をするのはとても難しいでしょう。つまり、研究で使うには、とても慎重な判断が求められるということになります。
ただ、ざっとそれぞれのコーパスの特徴などを見るには、統計値が一覧できるため、それなりに使い所があるのではないかと思います。