Word Count には、左右のテーブルの単語・n-gram リストを統計的に比較して、それぞれのリストに特徴的とされる単語を判別する機能がついています。いわゆるキーワード分析と呼ばれるもので、基本的には、大きな一般コーパスを参照コーパス (reference corpus) として、分析対象のコーパス (対象コーパス: target corpus) に特徴的な単語を、キーワード統計と呼ばれる対数尤度比 (log-likelihood) やカイ 2 乗検定を使って判別します。
CasualConc で参照コーパスに対するキーワード分析を行う場合は、右側のテーブルで参照コーパスの単語リストを作成するか、既存の公開されている大規模一般コーパスの単語リストを入手して、右側のテーブルに読み込みます。単語リストの読み込みついては、こちらのページを参照してください。
CasualConc では、左右 2 つの単語リストを作成できるので、通常の一般大規模コーパスに対するキーワード分析だけではなく、2 つのコーパスを利用して、相対的なキーワード分析を行うことができます。例えば、話し言葉コーパスと書き言葉コーパスを比較して、それぞれに特徴的な単語や n-gram を明らかにしたり、2 つの異なるトピックの雑誌・新聞記事や論文などを比較して、それぞれに特徴的な単語を明らかにするなどの利用法が考えられます。
ここでは、アメリカ英語 (FROWN) とイギリス英語 (FLOB) の書き言葉コーパスを比較する例を示しながら、その手順を説明します。
まずは比較したいコーパスをファイルビューで選び、Word Count のそれぞれのテーブルに割り当てて単語リストを作成します。ここでは FROWN を左テーブルに、FLOB を右テーブルに割り当てています。
キーワード分析で一般的に使われるのは、統計的有意性に基づく統計値で、Log-Likelihood (対数尤度比) と Chi-square (カイ 2 乗検定) が代表的なものです。この 2 つは、頻度の差が統計的に有意であるかを検定する方法です。つまり、2 つのコーパスでの頻度の差が偶然ではないかどうかを見ているもので、頻度の差の大きさを見ているわけではありません。
カイ 2 乗検定は計算が容易なためよく使われていましたが、頻度が少ない場合に結果が正確でない場合があることや、コンピュータの性能が高くなり Log-Likelihood の計算が容易になったことから、Log-Likelihood が一般的には選択されます。ここでも Log-Likelihood を選びます。ちなみに、Log-Likelihood は、正確には Log-Likelihood Ratio ですが、ラベルとしては Log-Likelihood となっています。
BIC (bayesian Information Criterion) は、一般的には統計モデルの適合度を見る指標で、値が小さいほどモデル適合度が高いという解釈をされます。特徴語分析では、Log-Likelihood の値をコーパスサイズで調整している統計値で、値が大きいほどそのコーパスに特徴的に使われている語であるという判断ができる指標です。Log-Likelihood の統計値を単にコーパスサイズで調整をしているだけなので、単語を BIC の大きい順に並べ替えた順位は、Log-Likelihood と同じになります。
CasualConc の Log-Likelihood Ratio の計算では、UCREL の Log-likelihood and effect size calculator で対数 (log) の底が 2 で計算されていたため、同様に底数 2 で計算していましたが、UCREL のサイトに置かれている Significance Test System の R を利用した計算では e を定数としていることや、R で対数尤度比を計算するとデフォルトで底数が 2 になっているため、CasualConc の最新のバージョンでは、設定の統計にある対数計算で底数を選択できるようになり、デフォルトは e (自然底数) になっています。
左右のテーブルで単語リストを作成したら (あるいは読み込んだら)、メニューの統計にある WC リスト比較 (特徴語) から、計算したい統計値を選びます。
単語と頻度の間に統計値の列が挿入されて表示されます。ここでは Log-Likelihood を選んだので、LL という列が挿入されています。Log-Likelihood は、単に 2 つのコーパスの単語の頻度と総頻度から統計値を計算しているだけですが、どちらに特徴的かを明確にするため、参照コーパスと比べて当該コーパスで相対頻度が高ければ、プラスの値に、相対頻度が低ければマイナスの値として表示されて、マイナスの値は赤く色付けされます。LL の列で LL の値が高い順に並べ替えると、そのコーパスに特徴的な単語が上位にきます。
ここでは、アメリカ英語とイギリス英語のコーパスの比較なので、アメリカ英語のコーパスである FROWN では、percent が最も特徴的と示されています (イギリス英語では per cent と綴られるので)。それ以外も、アメリカ英語とイギリス英語で綴りが違う単語が上位にきています。また、_formula で示された論文などで使われる数式を表した文字列は、FROWN にしかないため上位にあります。もう 1 つ、アメリカ英語では、当然の如く U.S. という表現が多く使われていて、ここでは、u と s の 2 つの文字として別々に集計されて上位に現れています。これら以外では、大統領の名前 (clinton, bush) や president, american, states など、アメリカ英語コーパスの内容に特徴的な単語が見られます。
設定の統計にある Word Count で、右テーブルでも統計を計算するにチェックを入れると、左テーブルだけでなく右テーブルでも統計値が計算されて表示されます。この機能がデフォルトでオフになっている理由は、基本的なキーワード分析が大きな一般コーパスを参照コーパスとするため、参照コーパスでの統計値に意味がないためです。
これで、左右両方のテーブルで統計値が計算されて、統計値で並べ替えることによって、それぞれのコーパスの特徴語を比較することができます。
この例では、右側のイギリスコーパスで、cent (per cent の一部) や labour, towards などイギリス綴りの単語が上位に現れていることがわかります。それらや固有名詞を除くと、which, it などが上位にあることで、文法的な違いが出ている可能性が見えてきます。
Log-Likelihood と Chi-squared は、その値自体に意味があるわけではなく、統計検定に使われる値であり、値が大きいほど有意確率が小さくなりますが、これは偶然である可能性が低くなるということを意味するだけです。
一般によく利用される α値である、0.05 (p < .05) と 0.01 (p < .01) に対応する値は、それぞれ、3.84 と 6.63 です。つまり、LL の値 (一般的に G² と表記されます) が 3.84 より大きければ、p < .05 であると判断できるということです。
CasualConc には、オプションで p 値を計算する機能も備わっていて、設定の統計にある Word Count で、Log-Likelihood と Chi-square の下にある p-value にチェックを入れると、統計値の計算時に p 値も算出されます。
この例のように、米英のコーパスを比較すると、同じ単語で綴りのものがリストの上位を占めることになってしまいます。綴りの違いが研究対象であったり、研究において重要である場合はそのままにしておく必要がありますが、単語自体の使用が興味の対象である場合は、米英の綴りの違いを無視して同じ単語として扱う方が意味があるでしょう。CasualConc には異綴りを扱う機能があります。レマと異綴りの扱いに設定の仕方が書いてあるので参照してください。
リストになかったいくつかの米英綴りのペアを新たに登録した上で、いくつかの複合語や per cent などの 1 つの単語として扱うべきものを単語として扱う文字列に登録して、設定の一般にある単語の扱いで単語として扱う文字列と連語にチェックを入れて、FROWN と FLOB で Log-Likelihood を計算すると次のような単語がそれぞれのコーパスの特徴語として上位に並びました。
素の単語リストで処理した場合よりも、意味がありそうな単語が上位に並びました。
CasualConc には、この他にも、別の統計指標を使って特徴語を抽出する方法が用意されています。
%DIFF は、コーパスの大きさに寄らず、その語が 2 つのコーパスで現れる頻度の差が何%多いか・少ないかを示す指標です。値が大きいほど、そのコーパスに特徴的な語であると判断できます。%DIFF = 100 は、参照コーパスに比べて、相対頻度が 2 倍であること (100% 多い) を示しています。ただ、比較しているコーパスでその語が現れない場合には極端に大きな値が割り当てられるため、両方のコーパスに現れる語とは別に扱う必要があります (厳密に計算すると無限大になるため、大きな値になるように計算されます)。
Log Ratio (LR) も、それぞれのコーパスでの相対頻度の比率を対数にしたものです。Log Ratio の計算にも対数 (log) が使われていますが、底数は 2 に固定になっています。そのため、Log Ratio が 2 の場合は、参照コーパスに比べて相対頻度が 2² = 4 倍であることを示しています。
%DIFF と Log Ratio は、その差の大きさ異なるスケールで表しているだけなので、それぞれの値の高い順に並べると同じ順になります。
次の例は、FROWN と FLOB で %DIFF の順に並べ替えたものですが、これは、単純にそれぞれのリストで重複する単語を除いた残りの単語の頻度順のリストと同じになります。
最新のバージョンでは、メニューの表にある Word Count リストから重複する単語だけを残すを選ぶと、左右どちらかのリストにしか存在しない単語がリストから削除されます。
この機能を使って、両方のリストに存在する単語だけで %DIFF を算出してその順に並べ替えると次の様な感じになります。この二つのコーパスで意味のあるリストになっているかは微妙な感じですが、研究目的によって利用してください。
これらの単純な頻度や相対頻度から計算した統計値とは少し趣の異なる特徴語指数も計算することができます。
Egbert & Biber (2019) で提案された、コーパス内でどれくらいその語が分散しているかを 2 つのコーパスで比較して特徴語の指標とする方法で、CasualConc では Dispersion というラベルにしてあります。
Dispersion は、コーパス全体のファイルのうち、幾つのファイルでその語が使われているかを算出して、その対数尤度比 (Log-Likelihood) を求める方法で、CasualConc では、含ファイルの値と全体のファイル数から計算します。これまで説明してきた特徴語指数と同じ処理ができるため、単純な比率である Ratio と、BIC、Log Ratio も計算できます。
実際に Dispersion (LL) での上位の単語と Log-Likelihood と Log Ratio ではどの様に違うかを次に示します。FROWN と FLOB で異綴り処理をした上で統計処理をしたものです。
FROWN/FLOB は、15 ファイルずつでそれぞれのファイルが大きいため、結果としてあまり意味があるものかどうかは難しいところですが、Dispersion は、どれくらい多くのファイルに現れるかの比較になるため、Log-Likelihood や Log Ratio で抽出される特定の文書・ファイルに高頻度で現れるために特徴的と判断されるものは含まれていないことがわかります。
これらの指標は、どれか 1 つが正解ということではないので、比較をしながら活用してください。
Word Count では、キーワード分析の複数の統計値を一度に計算して表示する機能もあります。
まずは、設定の統計にある Word Count で、計算したい統計値を選びます。
次に、メニューの統計にある WC リスト比較 (特徴語) から、選択項目を選びます。
これで、複数の統計値が別々の列に表示されて、ヘッダをクリックして並べ替えることで、簡単に比較ができます。