コーパス分析では、内用語を中心とした分析をしたい場合など、機能語を除外して頻度集計したいことがあります。そのような場合には、頻度リストに含めない単語を指定してストップワードとして頻度集計処理から除外する方法が取られます。
CasualConc でも、単語・n-gram リスト作成時にストップワードを除外する機能がついています。
ストップワードの機能を利用するには、まず、ストップワードのリストを登録する必要があります。ストップワードリストの作成は、単語の扱いで単語として扱う文字列や連語を登録した単語・文字の扱いパネルで行います。
設定の一般にある単語の定義の単語の扱いでリストボタンをクリックします。
単語・文字の扱いパネルの上部にあるタブでストップワードを選びます (初めて開くと、ストップワードが選ばれています)。
単語の扱いにあるように、左側のテーブルの下のテキストボックスにグループの名前を入力して追加ボタンをクリックし、グループを作成します。グループを作成したら、テーブルでストップワードリストを追加したいグループを選ぶと、右側のテーブルに単語を登録できるようになります。
右テーブル下のテキストボックスに入力して、1 つずつストップワードを登録することもできますが、基本的には、ストップワードを 1 行 1 単語で記述したファイルを読み込んで、リストにない単語を追加する場合に、1 つずつ追加する想定です。
ストップワードファイルの読み込みは、右テーブル下の読み込みボタンの右側にあるポップアップボタンでファイルを選択し読み込みボタンをクリックします。リストは、すでに作成した他のグループのストップワードリストを読み込むための選択肢です。
CasualConc のディスクイメージには、オープンソースのストップワードリストを同梱してあるので、適宜修正して利用してください。
デフォルトでは、単語リスト作成時は、ストップワード処理は、単語の集計が終わった時点で行われます。そのため、異なり語数と総語数の値は同じですが、リストに追加される時点で付与される頻度順位は、ストップワードを除いた単語リストで最も高頻度の単語が 1 位になります。
設定の WC にある一般で、ストップワードの処理を入れるタイミングを変更できます。
集計前にストップワード処理をする - ファイルを読み込んだ時点でストップワードを削除してから単語頻度の集計をします。総語数と異なり語数は、ストップワードを除いた語数になります。
集計後にストップワード処理をする - テーブルに表示する結果の処理をした後にストップワードを削除します。総語数と異なり語数はコーパス全体のもので、頻度順位もストップワードを含めたコーパス全体の順位になります。
ストップワードの適用は、デフォルトではストップワードを含む単語 (複合語など) も削除されますが、ストップワードリストの単語に完全一致する場合のみ削除するように変更できます。単語リストのストップワードの適用で完全一致に変更してください。
n-gram リストでは、ストップワードが含まれる n-gram がリストから削除されます。
集計前後にストップワード処理をするかの適用は、単語リスト作成時と同様で、集計前の場合は、ファイルが読み込まれた時点でストップワード処理がされ、集計後の場合は、順位が割り当てられた後でストップワードを含む n-gram が削除されます。
また、すでに作成されたリストにストップワードリストを適用することもできます。
メニューの表にあるストップワードを適用で Word Count からストップワードを適用したいテーブルを指定します。