Word Count は、左右 2 つのテーブルがあり、シンプル-テキストモードでは左右それぞれのテキストエリアのテキストに対応しています。左右のテーブルは、異なるリスト (単語・n-gram) の作成に対応しているだけでなく、レギュラーモードでは、左右それぞれに異なるコーパス・データベースを割り当てて比較することができます。
単語・n-gram リストの作成は、左上のポップアップメニューから作りたいリストを選んで、実行ボタンをクリックします。レギュラーモードでは、ファイルビューのコーパス・データベースリストにチェックを入れたコーパス・データベースを選んで割り当ててリストが作成できます。
頻度のみにチェックを入れると、頻度のみが集計され、ファイルごとの頻度などの情報は収集されません。大きなコーパスで、特に n-gram リストを作成する際に、頻度情報のみが必要な場合は利用するといいでしょう。
Word Count では、デフォルトで次の情報が提示されます。
Words/n-grams - 単語の扱いで定義した単語が集計されます。
頻度 - 粗頻度です。
割合 - 総語数 (total tokens) に対する頻度の割合です。0.01% まで表示されます。累積割合を集計することもできます (下記参照)
含むファイル - コーパス全体のファイルのうち当該単語・n-gram が含まれるファイルの数です。
含むファイル割合 - 含むファイルのファイル全体に対する割合です。
単語・n-gram のコーパス全体の総語数に対する割合の累積割合を集計するには、設定の WC にある一般で累積割合列を表示にチェックを入れます。下の例では、頻度上位 6 語で、コーパス全体のおよそ 20% を占めていることがわかります。
相対頻度を集計するには、設定の WC の一般にある相対頻度化にチェックを入れて、相対化の基準頻度を入力します。
n-gram は、n 単語が連続する連語で、単語の扱いで複合語が単語として扱うとして登録されていると、見かけ上はそれよりも多くの単語の連語がリストに含まれることになります。
デフォルトでは、2-gram から 5-gram までのリストを作成できますが、設定の WC にあるアドバンストでアドバンストモードにチェックを入れると、30-gram までのリストが作成できます。ただし、n の値が大きくなればなるほど、大量のメモリと処理時間を必要とするので、比較的小さなコーパスに限定したり、最低頻度をある程度大きな値に設定して利用してください。
長い n-gram リストは、特定の作家の文学作品などで特徴的な長いフレーズが多用されているかを確認したり、学習者コーパスなどで、コピペで同じテキストを繰り返して長く見せかけていたり、不正によって複数の学習者が提出したエッセイなどが同じものであったりするケースを見つけるために有用です。
n-gram の集計では、文脈の範囲の設定が反映されます。デフォルトでは、文脈の範囲の設定は「段落」になっているので、段落を超えて連続する語連鎖も重要だと考える場合は、設定を「ファイル」に変更してください。文脈の範囲の設定は、設定の一般か、メインウィンドウの右下にあるボタンで可能です。
結果を並べ替えるには、並べ替えたい項目のヘッダ行をクリックします。複数回クリックすることで、昇順と降順を切り替えられます。
設定の WC にある一般で、特殊並べ替えにチェックを入れると、頻度やアルファベットだけではない並べ替えができます。並べ替えたい順を選んで、並べ替えボタンをクリックします。
後方アルファベット - 単語・n-gram の後ろの文字からアルファベット順に並べ替えます。
単語長 - 単語・n-gram の長さが長い順で並べ替えます。
逆単語長 - 単語・n-gram の長さが短い順で並べ替えます。
大小区別アルファベット - CasualConc での文字列検索にあるように、設定の一般にあるテキスト処理で、大文字小文字の区別にチェックを入れて頻度リストを作成すると、大文字小文字を区別したリストが作成されます。ここで、単語・n-gram で並べ替えると、大文字小文字が混ざった状態でアルファベット順に並べ替えられますが、大小区別アルファベットで並べ替えると、アルファベットで始まる単語・n-gram は、まず、大文字で始まるものがアルファベット順に提示された後に、小文字で始まるものが提示されます。
非常に大きなコーパス (総語数数千万語以上) で n-gram のリストを作成すると、異なり語数が非常に多くなり、並べ替えに大量のメモリと時間が必要になります。場合によってはメモリ不足で処理が終わらなくなり、Mac の使用に支障をきたすことになります。
それに対処するために、CasualConc では、並べ替え処理の前に設定した最低頻度未満の単語・n-gram をリストから削除して処理することができます。
設定のその他にある最低頻度で、単語・n-gram それぞれに最低頻度を設定することができます。n-gram は、複数回出現して初めて意味を持つので、初期設定が 2 になっています。n-gram リストでは、この最低頻度をある程度大きな値に設定することで、1 億語を超えるような大きなコーパスでも処理が可能になります。
おまけ的な機能として、コーパスの文字の頻度を集計することもできます。
設定の WC にある一般の単位で文字を選ぶと、文字の頻度リストや文字の n-gram の頻度リストが作れます。
単語・n-gram リスト作成時に、数字を別々の数値の文字列として扱うのではなく、数値としてまとめて扱いたい場合は、設定の一般にある数字の扱いで数字をどのように扱うかを設定します。詳しくはこちらを参照してください。