ファイル情報は、単語の頻度や異なり語数などの基本的な情報をもとに、いろいろな語彙指標を集計するモードです。
標準では、総語数 (tokens)、異なり語数 (types) および TTR (Type-Token-Ratio) を集計します。下記オプションで文の数や段落の数も集計できますが、文区切りは macOS の機能を利用しているため、それなりのです。正確な文集を集計するには、文ごとに改行したファイルを用意して Para (段落) の数を利用してください。
これらの基本的な統計値以外にも、設定の File Info 2 にあるファイル基本情報で集計する統計値を選択できます。
文・段落数の集計
macOS の機能を使って、テキストを文ごとに区切ってその数を集計します。また、改行記号で分けた段落の数も集計します。より正確な分の数を集計するには、文ごとに改行して、段落として集計してください。
平均値の計算
ファイルごとではなく、コーパス・データベースごとに集計した場合に、Types (異なり語数) と Tokens (述べ語数) の平均 (mean) が計算されます。統計値の詳細にチェックを入れると、標準偏差、最小値、最大値が集計されます。下の例の BROWN コーパスファミリーの場合、それぞれのコーパスが 15 のサブコーパスで構成されているため、15 ファイルの平均ということになります。
単語文字数集計
1 文字から 15 文字までと 16 文字以上をまとめて、それぞれの文字数の延べ語数を集計します。単語文字数の詳細にチェックを入れると、16 文字以上も、それぞれの文字数ごとの延べ語数を集計します。
語彙の多様性の指標として、標準では Type-Token Ratio (タイプ・トークン比:TTR) が算出されますが、TTR は総語数に大きく影響されることが知られています。これは、テキストが長くなれば長くなるほど、既出の単語が使われる可能性が高くなるため、TTR の値は小さくなっていきます。このため、異なる長さのテキストを比較するためには TTR の使用は適切とは言えません。
この問題に対処するため、さまざまな語彙の多様性指標が提案されています。CasualConc では、そのうちいくつかの指標を計算できるようになっています。
STDTTR (Standardized TTR)
テキストを一定の長さの語数ずつに分けて TTR を計算しその平均 (mean) を算出します。CasualConc では、先頭から指定した五数ずつ取り出して TTR を計算します。
MATTR (Moving-Average TTR)
テキストの先頭から、範囲で指定した語数を取り出して TTR を計算し、次に間隔で指定した語数ずらして、また範囲で指定した語数を取り出して TTR を計算するということをテキストの終わりまで繰り返し、得られた TTR の平均を算出します。最終区分を含むにチェックを入れると、指定した範囲未満の語数の最終区分も TTR を計算して TTR の平均の計算に加えます。
Guiraud's R
Type-Token ratio は、異なり語数 (types) を総語数 (tokens) で割ったものですが、テキストの長さの影響を軽減するため、Guiraud's R は、総語数の代わりに総語数の平方根で割って算出します。
Yule's K
異なり語の頻度を 2 乗したものの合計から総語数を引いて総語数の 2 乗で割った値を元にしていて、高頻度語が多く使われている単語数が限られると K の値は大きくなります。つまり、K の値が小さいほど語彙多様性が高いと解釈します。
Maas (Maas's a²)
Maas は、TTR を対数にして、総語数の 2 乗の対数で割ることで、テキストの長さによる影響を軽減しようとするものです。小さい値を取るほど多様性が高いと解釈します。
MTLD (Measure of Textual Lexical Diversity)
TTR がある一定の値 (デフォルトは 0.72) になるまでに必要な語数 (テキストが長くなるほど TTR は下がるため) を数えて、その次の単語から同様の処理を繰り返した上で平均値を算出したものです。値が大きいほど TTR が低下するのに必要な語数が多く必要であることから、多くの新しい語が出現していることになり、語彙多様性が高いと解釈します。計算処理の性質上、あまり短いテキストには適しません。
vocd-D
CasualConc では、範囲で指定した語数ごとに (デフォルトでは 35 語から 50 語まで 16 回)、テキスト全体から TTR サンプル数で指定した回数ランダムにその語数を抽出して TTR を計算し、それを繰り返して平均 (mean) を求めます。範囲全体での平均を算出した後に、定数 D を含むモデル (CasualConc で使用するのは近似モデル) に基づく TTR を 0.1 から D 上限で指定した値まで 0.1 ごとに D に代入して計算し、サンプル抽出して計算した TTR との誤差が最も小さくなる D を求めます。D の値が大きいほど語彙多様性が高いと解釈します。サンプル抽出して計算しているため、毎回わずかに値が異なります。
HD-D (Hypergeometric Distribution D)
すべての異なり語に対して、指定した値 (デフォルトは 42) の語を全体からランダムに抽出した時に、その語が含まれる確率を計算して、それを指定した値で割ることで求めます。vocd-D の代替として提案されたものです。解釈は vocd-D と同じく、値が大きいほど語彙多様性が高いと解釈します。