CasualConc では、複合語や略語などの文字列を登録して、頻度集計やワイルドカードなどを使った検索で 1 つの単語として扱うことができます。
設定・一般にある単語の定義に単語の扱いというセクションがありますが、ここでリストボタンをクリックして、単語として扱う文字列のリストを作成します。
リストボタンをクリックすると、単語・文字の扱いパネルが開きます。開いた時は、ストップワードが選択されていますが、右上のスイッチで単語として扱う文字列を選びます。
デフォルトでは単語として扱われない文字列は、単語として扱う文字列と連語の 2 つのリストに登録できますが、想定しているのは次のような文字列です。
単語として扱う文字列:略語などで、アポストロフィ (') やピリオド (.) などを含む文字列 (o'clock, i.e., e.g., U.S., U.K., etc.)
連語:2 つ以上の単語からなる複合語 (amino acid, part-time, etc.) や都市名など (San Franciso, New York) や研究目的によっては群前置詞など (according to, in case of, etc.)
これら 2 つは、管理のしやすさのために分けられていますが、実際の処理では、これら 2 つのリストは合わせて 1 つのリストとして処理されます。
パネル上のテーブルには次の役割があります。
左テーブル:グループリストテーブル
右テーブル:項目リストテーブル (それぞれの項目ごとに異なるリストを管理)
まずは、それぞれの項目のリストを登録するためのグループを作ります。左のグループリストテーブルの下のテキストボックスにグループ名を入力して追加をクリックします。これらのリストは、目的によって複数のリストを切り替えて扱えるように、グループごとの管理になっています。
グループを追加したら、そのグループをテーブル上で選ぶと、項目を右側の項目リストに追加できるようになります。
項目を追加するには、右側の項目リストテーブルの下にあるテキストボックスに単語として扱いたい文字列を入力して追加ボタンをクリックします。
あるいは、左にある読み込みボタンをクリックしてファイルもしくは別のグループのリストから読み込みます。ファイルは、1 行 1 項目の UTF-8 でエンコードされたプレインテキストファイルを用意してください。用意したファイルは、リストにドラッグ&ドロップして追加することもできます。