CasualConc には、単語頻度集計などで、単語ではなくレマで集計したり、単語の異なる綴りをまとめて同じ単語として扱う機能があります。
まずは、レマ・異綴りともに、処理するためのリストを作成する必要があります。
設定の一般にある、レマ・異綴り・キーワードグループで、リストボタンをクリックします。
レマ・異綴り・キーワードグループパネルが表示されるので、右上のボタンで、レマもしくは異綴りを選びます。
パネル上のテーブルには次の役割があります。
左テーブル:グループリストテーブル (それぞれの項目ごとに異なるグループリストを管理)
右テーブル:項目リストテーブル (それぞれの項目ごとに異なるリストを管理)
グループの作成は、単語・文字の扱いパネルと同じく、左下のテキストボックスにグループ名を入力して、追加ボタンをクリックします。
左のグループテーブルでグループを選んだら、右の項目リストテーブルにリストを読み込みます。まずは、レマのリストを読み込みます。項目リストテーブル左下にある読み込みボタンをクリックして、オプションを設定し、レマリストのファイルを読み込みます。CasualConc には、ディスクイメージの Resources フォルダの中に、e_lemma.txt という英語のレマリストのファイルがあります。英語の場合は、これを読み込んでください。
オプションは、区切りの文字とスキップする行の先頭の文字を設定します。スキップする行がない場合は、スキップ行文字は空欄で構いません。
区切り文字は、キーと項目で分かれています。キーのデフォルトのオプションは、e_lemma.txt ファイルと、英語異綴りリストである a-e spelling differences.txt を読み込むためのもので、前者が ->、後者がタブ区切りになっています。項目は両方ともコンマ ( , ) で区切られています。
スキップ行文字は、e_lemma.txt は、[ で始まる行がコメントになっているので、e_lemma.txt ファイルを読み込む場合は、[ を入力してください。
e_lemma.txt ファイルを読み込むと、次のようなリストが読み込めているはずです。
このリストに新たなレマを登録したい場合は、テーブル下の左側にテキストボックスにレマを入力し、右側のテキストボックスにレマに含まれる単語をコンマ区切りで入力して、追加をクリックします。リストのレマに修正が必要な場合は、テーブル上のテキストをダブルクリックして、直接修正します。修正するものが多い場合は、削除して新たに作成したレマを読み込む方が速いかもしれません。
e_lemma を利用する際に 1 つ注意が必要なのは、e_lemma リストがイギリス英語の綴りがベースになっているという点です。例えば、color は、
colour->colours,colouring,coloured
となっています。アメリカ英語を扱う場合は、リスト上で単語を修正するか、アメリカ英語の綴りでレマを追加する必要があります。
異綴りも同様に、左のテーブルでグループを作成して、テーブルで作成したグループを選び、右側のテーブルに異綴りリストを追加します。項目リストテーブル左下にある読み込みボタンをクリックして、オプションを設定し、異綴りリストのファイルを読み込みます。CasualConc には、ディスクイメージの Resources フォルダの中に、a-e spelling differences.txt という英語の米英の綴りをマッチさせたファイルがあります。機械的に作成したものなので、研究目的で使う場合は、リストの内容をチェックしてください。
a-e spelling differences.txt を読み込む際は、オプションはデフォルトのままで大丈夫です。コメントは入っていないので、スキップ行文字も入力する必要はありません。
これで、設定のレマ・異綴り・キーワードグループで、使いたい機能にチェックを入れて使用します。