ここでは、ファイルの中身であるテキストをどのように扱うかの設定について説明します。
単語をどう定義するかはコーパス分析ではとても重要になります。CasualConc では、何をもって単語とするのかの定義や、例外的に単語として扱う文字列の指定などができます。
コーパス分析では、複合語や略語などで、スペースやコンマ、ピリオドなどで区切られていても 1 語として扱いたい場合もありますが、CasualConc では、そのような文字列を登録しておいて、1 語として扱う機能があります。
分析処理を行う前に変換を行う処理をする文字を指定できます。引用符の文字種の統一や XML や HTML でのエスケープ文字の変換を想定しています。
XML タイプ (<tag></tag>) のタグがつけられたセクションのみ処理したり、XML タイプのタグで記載されたファイルの情報などをもとに処理するファイルを選別する設定ができます。_TAG タイプの POS タグが付いたテキストから POS タグを削除して処理する設定もできます。
外部アプリケーションとの連携で、検索・集計の際に POS タグ (形態素タグ) を付与したり、あらかじめバッチ処理でテキストファイルに POS タグを付与したりすることができます。
単語リストの作成などで、数字を別々の文字ではなく # として扱う設定をします。