MALLET で分析する際は、テキストファイルを同じ程度の単語数に分けて処理することが望ましいとされています。CasualConc には、テキストファイルを指定語数 (トークン数) で分割して保存できるツールが用意してあります。また、分析によっては、品詞タグ付けした上で、特定の品詞の単語のみを分析対象にしたり、コーパス中である一定頻度以上の単語のみを分析対象にしたりする場合があります。このような処理も行うことができます。
テキスト処理の詳細については、テキストファイル処理のページに説明があるので、参照してください。ここでは、基本的な処理について簡単に説明します。
まずは、メニューのツールからテキストファイル処理を選びます。
処理したいファイルは、レギュラー・ファイルモードのコーパスのファイルを読み込んだり、左上のテーブルに処理したいファイルあるいはファイルを含むフォルダをドラッグ&ドロップします。
ここでは、default コーパスグループに登録されている FROWN コーパスのファイルを読み込みました。さらに追加する場合は、別のコーパスのファイルを追加で読み込むこともできます。
ここでは、元のファイルを 2000 語ごとに分割したいとします。分割したファイルは、元ファイルのファイル名に番号がついたものにしたいので、ファイル名ベースは元ファイル名を選びます。
MALLET では、処理の段階でテキストが小文字に変換されるはずなので、ここで小文字に変換する必要はありません。
内容のところで、分割にチェックを入れて、オプションで段落区切りを選びます。厳密に指定語数で分割したい場合は単語区切りを選びますが、書き言葉の場合は、段落は意味のまとまりになるため、その途中で分割しない方がいいという考え方があるため、ここではそれに従います。段落区切りを選ぶと、指定語数を超えて最初に現れる改行記号 (\n) のところで分割されます。
ここでは、単語数をトークンと表記していますが、単語として数えられるものをトークンとしていて、設定の一般にある単語の定義で指定します。単語の定義の単語の扱いのところで連語や複合語を登録して、それらを 1 つの単語として数えるオプションをオンにしていたり、ハイフンやアポストロフィを単語に含めるオプションをオンにしていると、それを元にしたトークン数になります。
また、数字は個別の数値として扱いたくないので、数字を 0 で置換するオプションをオンにしています。元のファイルに XML 形式でファイル情報が付与されている場合や、文脈タグでセクション分けが指定ある場合など、それらの情報を使って一部を抽出したり、本文以外のテキストを削除したい場合は、CasualConc の文脈・ヘッダタグのオプションをオンにした上で、文脈・文書タグ設定を適用にチェックを入れて処理します。文脈・ヘッダタグの設定については、タグ設定を参照してください。
特定の品詞の単語だけを利用してトピックモデル分析をしたい場合などは、品詞タグのオプションを利用して、テキストに品詞タグを付与して特定の品詞タグのついた単語を抽出してファイルを分割したり、すでに品詞タグがついたテキストを利用して特定の品詞の単語を抽出して分割したりできます。詳しくはテキストファイル処理のページを参照してください。
複雑な処理をしたくない場合は、品詞タグがついたテキストファイルを単純に単語数で分割して、MALLET で分析処理を実行する際に、正規表現を使って特定の品詞タグのついた単語のみを使って分析することもできます。品詞タグをついたファイルを用意する場合は、CasualConc のバッチタグ付けツールが利用できます。
テキストファイル処理で MALLET コーパスリストに送るにチェックを入れておくと、MALLET のコーパスフォルダリストに、処理したファイルを保存したフォルダが自動的に追加されます。また、この処理を行うと、分割前の元ファイルの情報も保持されて、結果の処理のところで利用できます。
処理終了後に保存したフォルダを開くにチェックを入れると、処理をしたファイルが保存されたフォルダの中身が Finder 上で表示されます。