テキストファイルを処理するこの機能は、元々は MALLET でのトピックモデル分析のためのテキストファイルの下処理を行うために追加しましたが、汎用性を持たせて、それ以外でも使えるようにしたものです。
このツールを使うには、メニューのツールからテキストファイル処理を選びます。
左上が、処理するテキストファイルを読み込むテーブル、左下は左上のテーブルで選んだファイルの中身を確認するプレビューエリア、右側がテキスト処理のオプションです。
ファイルの読み込みは、左上テーブル右下の追加ボタンをクリックして Open パネル上でファイルを選んで読み込むか、左上にフォルダ・ファイルをドラッグ&ドロップします。
レギュラー・ファイルモードで、コーパスを作成している場合は、そのコーパスのファイルを読み込むことができます。上のポップアップボタンでコーパスグループを選択して、下のポップアップボタンでコーパスを選択したら、読み込みボタンをクリックします。
次の例では、デフォルトのコーパスグループにある LOB コーパスのファイルを読み込みます。
テーブル右上のプレビューボタンにチェックを入れて、テーブル上でファイルを選ぶと、下のプレビューエリアに選んだファイルの中身が表示されます。
処理するファイルを読み込んだら、右側のオプションを設定して右下の処理をクリックしてファイルを処理します。
その際に保存するフォルダを選択しますが、元ファイルのディレクトリ構造を再現することもできます。
ここからはそれぞれのオプションを説明していきます。
ファイル
処理したファイルを保存する際のファイル名を指定します。すべてのオプションがオフになっている場合は、単にここで選択したファイル名で選択したフォルダにファイルがコピーされます。ファイルを分割して保存する場合は、ここで選択したファイル名に続いて、アンダーバー (_) と連番で番号が付与されます。
元ファイル名 - 元のファイル名がそのまま保持されます。
親フォルダ (P) + # - ファイルが入っているフォルダの名前に番号がついたファイル名になります。フォルダごとに番号が振り直されます。
親の親フォルダ (P) + # - ファイルが入っているフォルダの親フォルダの名前に番号がついたファイル名になります。フォルダごとに番号が振り直されます。
GP_P + # - 親の親フォルダ名と親フォルダ名をアンダーバー (_) で繋げたものに番号がついたファイル名になります。フォルダの組み合わせごとに番号が振り直されます。
例えば、元ファイルが FROWN_A だった場合、分割したファイルは、分割したファイル数によりますが、FROWN_A_01、FROWN_A_02 などと名前がついて保存されていきます。100 以上に分割される場合は、_001 と 3 桁の番号がつくはずです。
内容
段落区切りを保持 - この下で説明する、Word Count の結果を使ったフィルタリングやタグ付け処理をした場合に、段落の区切りを保持するかどうかを選択します。
小文字に変換 - 大文字を小文字に変換するかどうかを選択します。
分割 - ファイルを指定した区切りごとに分割します。
単語区切り - 指定した単語数 (トークン) 数でファイルを分割します。単語の定義は、CasualConc で指定したものになるため、単語として扱う文字列や連語の指定で複合語を登録してこれらをオンにしてあると、連語・複合語は 1 語として数えられます。
段落区切り - これも、指定した単語 (トークン) 数でファイルを分割しますが、指定した単語数を超えて最初に現れる改行記号 (\n) で区切ります。これは、トピックモデル分析を行う際に、段落のまとまりは意味のまとまりであるため、途中で分割しない方が好ましい場合などに利用します。
指定文字列 - ファイル中に何らかのタグなどで区切りが入っている場合、その文字列の部分でファイルを分割します。
正規表現 - 指定した正規表現にマッチする文字列を利用して分割します。
最後の部分を保持にチェックを入れると、単語区切り・段落区切りを選んだ時に、指定トークン数に満たない最後の部分を出力に含めます。
正規表現で分割をする場合は、正規表現でマッチした部分の後 (マッチ後) で分割する、正規表現でマッチした部分の前 (マッチ前) で分割する、正規表現でマッチした文字列 (マッチ自身) で分割する (その文字列は削除)、から選びます。
文脈・文書タグ設定を適用 - CasualConc 文脈タグ、文書タグの設定を適用します。この機能を使うには、タグフィルタの機能がオンになっている必要があります。文脈・文書タグについてはタグ設定を参照してください。
数字を 0 で置換 - 数字のみの文字列を 0 で置換します。ここでの「数字」は、数字と , . : の記号の組み合わせだけでできている文字列という意味で、桁の区切り (1,000) や小数、01:35:42.35 などの時間の文字列を 0 で置き換えるということです。
Word Count の結果で選別
この機能は、トピックモデル分析などで、ある一定の頻度以上の単語や一定以上の割合のファイルに現れる単語のみで分析するために、Word Count での単語リストの情報を利用して適合する単語のみを残すためのものです。ここでの単語リストは、処理するファイルで作ったものや、大規模一般コーパスの単語リストを想定しています。
選択したフィルタ - ここで表示されている、頻度、相対頻度、割合、累積割合、ファイル割合で、チェックを入れたもので、指定した値以上の値の単語のみを抽出します。AND と OR のオプションがあり、すべてに当てはまる単語か、どれか 1 つのフィルタに当てはまる単語かを選べます。
Word Count の結果すべて - これは、Word Count でフィルタを使って単語を絞り込んだ場合に、テーブルに残っているすべて単語を抽出するためのものです。要は、ここでのオプションで指定したものではなく、もっと柔軟なフィルタを使って残した単語を分析対象にするということです。
品詞タグ
品詞タグのオプションは、ファイルのテキストに品詞タグを付与したり、タグ付けした後やタグのついているテキストファイルを利用して特定の品詞タグの単語のみを抽出したりするためのオプションです。
タグの処理をする場合は、タグ分析にチェックを入れます。
タグ分析でタグを付与を選んで、タグのないテキストにタグをつけて処理する場合は、単語にタグをつけるか、レマにタグをつけるかを選べます。
既存のタグを利用 - タグのついたファイルを処理する場合はこちらを選びます。TreeTagger や MeCab の標準出力でタグづけされたファイル (1 行 1 単語) を扱う場合は、縦型出力のオプションにチェックを入れます
タグを付与 - タグのついていないテキストにタグをつける場合はこちらを選びます。TreeTagger、MeCab、Stanford CoreNLP、Built-in の 4 つのタガーが選べます。Built-in 以外のタガーは別途インストールする必要があります。それぞれの説明のページを参照してください。
タグ付きテキストやタガーで POS タグをつけた場合は、特定のタグのついた単語のみを抽出することができます。この場合は、どのタグセットを利用しているかを指定する必要があります。
PennTree - TreeTagger と Standford CoreNLP の標準タグセットです。
CLAWS - TreeTagger の English-BNC のタグセットです。
ipadic - MeCab の辞書です。
unidic - MeCab の辞書です。
指定 - コンマ区切りで抽出したい単語のタグを指定します。大文字小文字の区別はしません。
ファイル処理後のオプション
処理終了後に保存したフォルダを開く - 処理が終わると Finder でファイルを保存したフォルダが開きます。
MALLET コーパスリストに送る - TOPIC M/MALLET モードの場合は、MALLET 分析用のコーパスフォルダのリストに処理したファイルを保存したフォルダが追加されます。