コーパス分析では、何を持って単語とするのかをしっかりと定義することが重要となります。CasualConc も他のコーパス分析アプリケーションと同じく、コンピュータの機能に依存しているので、アプリケーション自体が単語という概念を理解しているわけではありません。コンピュータでテキストを扱う場合は、正規表現という文字列検索や置換を行うための方法使います。
CasualConcでは、単語の定義は、\b\w+\b という正規表現で規定されています。これは、Ruby や Python などのスクリプト言語の正規表現では、連続したアルファベット (A–Z, a–z)、数字 (0–9)、アンダーバー ( _ ) で、これら以外の文字との境界 (\b) に囲まれている部分という意味です。
例えば、make という単語があれば、\b\w+\b で make が単語として認識されますが、can't は、can と t に分けて認識され、' は記号なので無視されます。
CasualConc が利用している macOS の標準の正規表現 (ICU) では、\w は連続する \p{Letter} で定義される文字で、それ以外の空白、記号、改行などの文字に囲まれた文字列という意味になります。つまり、\w はどの言語でも言語の表記として使われている文字にマッチします。日本語の例で言うと、多くの正規表現では「あ」は \w ではマッチしませんが、CasualConc では「あ」も \w でマッチします。
単語に関する設定は、設定の一般で行います。
ハイフンを含む複合語を 1 語として扱いたい場合や省略形や所有形を表す ' を単語の一部として扱って、so-called や can't を 1 語として扱いたい場合は、単語の定義の単語の一部にに含めるにある ' や - にチェックを入れます。これら以外の記号を単語の一部として含めたい場合は、その他にチェックを入れてテキストボックスに記号を入力します。語頭や語尾にこれらの記号が着く場合も含めたい場合は、語頭あるいは語尾にチェックを入れます。
検索語に適用にチェックを入れると、ワイルドカードを使った検索をする場合に、これらの記号が単語の一部として扱われます。これらにチェックを入れると、can't や so-called は 1 単語として扱われます。
単語の定義は、単語の定義にある正規表現で単語を定義で変更することができます。正規表現を変更して、正規表現で単語を定義にチェックを入れると、ここで定義された正規表現にマッチする文字列が単語として扱われます。