ファイル情報でのキーワード抽出は、従来のキーワード統計値を使ったものが 2 つ (標準特徴度指数、特徴度指数多重比較) と、実験的なものが 4 つあります。
グループの 1 つを参照コーパス、それ以外のグループを対照コーパスとしてキーワード分析を行います。
グループの 1 つを対照コーパス、それ以外のグループの合計を参照コーパスとして、すべてのグループについてキーワード分析を行います。大きなコーパスのサブコーパスの場合は粗頻度で行うことが適当だと思いますが、異なるコーパスを組み合わせる場合には、コーパスの大きさが異なるため、相対化頻度を用いるべきでしょう。ただ、多くのキーワード分析では、粗頻度を利用することを前提としているようなので、統計値自体を議論するのは難しいかもしれません。単純にキーワードを抽出するための実験的な機能と考えてください。
順位/平均比較
複数のファイルを含む 2 つのコーパスで t 検定もしくは、Mann-Whiteney 検定を行い効果量 (と有意確率) をもとにキーワードの抽出を試みます。多くの単語で検定を繰り返すため有意確率の扱いが難しく、研究で利用することには慎重になる必要があるでしょう。有意確率がかなり低いもので効果量が大きいものをキーワードとみなす、という程度に考えてください。t 検定では平均の比較をするため、相対化頻度を利用する必要があります。
順位/平均多重比較
特徴度指数の多重比較と同じく、複数のコーパスで、1 つを対照コーパス、残りの合計を参照コーパスとして検定を行います。いずれの場合も、相対化頻度を用いる必要があるでしょう。
ランダムフォレスト特徴度指数
ランダムフォレストを用いて、キーワードの抽出を試みるものです。
Representativeness/Distinctivenss
Klaussner, Nerbonne, & Çöltekin (2015) の Representativeness/Distinctiveness という概念を取り入れようと試みたものです。検証ができていないため、実験的な機能と考えてください。