CasualConc には、引用符で、プレインテキストで使われるまっすぐな引用符 (straight quotes: " ' ) と MS Word などのアプリケーションで使われる曲がった引用符 (curly quotes: “” ‘’ ) がコーパスファイルで混在している場合や、m/n ダッシュ ( — – ) とこれらをハイフンで表記したファイルなどが混在する場合、不要な空白記号 (\t など) が入っている場合、あるいは、XML や HTML でエスケープ文字 (& " など) が使われている場合に、分析処理前に文字を変換する機能があります。
設定の一般にある文字処理で、リストをクリックして文字置換パネルを表示して、変換したい組み合わせをテーブル下のテキストボックスに入力し追加ボタンをクリックして追加します。デフォルトでは、下図のような痴漢の組み合わせが登録されています。
置換したい文字は、左端のチェックボックスにチェックを入れて、From (置換する文字列) で正規表現を使いたい場合は、R の列のチェックボックスにチェックを入れます。
設定の文字置換にチェックを入れると、リストでチェックが入っている文字の置換処理が、テキストファイルを読み込んだ直後に行われます。ただし、この処理は変換する文字が多いほど時間がかかり、ファイル中に変換する文字がなくてもないことを確認するために時間がかかるため、あくまでも応急的な対応と考えてください。繰り返し分析に使うテキストは、テキストファイル自体で文字を置換しておいて、この処理を使わない方が全体の処理時間の短縮につながります。