ファイル情報は、もともとファイルごとの基本的な情報を集計するための機能として CasualConc に追加しましたが、ファイルごとに単語や n-gram、指定した文字列などを集計する機能や、統計値を計算する機能を加えてきました。
ここでは、基本的な機能を中心に説明し、集計した単語頻度表を使ったキーワード分析などの紹介もします。
ファイル情報には、次の 7 つのモードがあります。
各ファイルの基本的な情報を集計します。総語数・異なり語数に加えて、語彙の多様性指標などが計算できます。
ファイルごとの単語・n-gram 頻度を集計した頻度表が作れます。
TF-IDF (Term-Frequency Inverse Document Frequency)
TF-IDF を計算して出力します。
Word Count と同様にキーワード分析ができます。
グループの 1 つを参照コーパス、それ以外のグループを対照コーパスとしてキーワード分析を行います。
グループの 1 つを対照コーパス、それ以外のグループの合計を参照コーパスとして、すべてのグループについてキーワード分析を行います。
ファイル情報では、総コロケーション頻度以外のモードで、頻度・統計値の集計をファイルごとにするか、コーパス・データベースごとにするか、あるいはその組み合わせ (混合) にするかを選べます。
グループ分けで混合を選ぶと、グループ指定ボタンが現れます。
グループ指定パネルでは、コーパス・データベースごとに、ファイル単位で集計するか、コーパス・データベース単位で集計するかを選べます。これにより、コーパスによってはファイルごとに集計したり、コーパス全体で集計したりを選べます。
複数のグループ分けを変更するには、テーブル上でコーパス・データベースを選んで、テーブル下のポップアップボタンでどちらかを選択し、+ ボタンをクリックして反映させます。
グループ分けにファイルを選んだ場合、そのコーパス・データベースを選んで左下の編集ボタンをクリックすると、ラベル編集パネルが表示されます。結果表示の時に、ラベルで指定した文字列がグループとして表示されます。
ラベルを編集するには、テーブル下の編集ボタンをクリックして現れるテキストエリアで、ラベルを直接編集してから閉じるをクリックします。