CasualConc では、TreeTagger、MeCab、Stanford CoreNLP を利用して、バッチ処理で、テキストファイルに POS タグ付けができます。繰り返し検索・集計処理をする場合は、その都度読み込んだテキストに POS タグを付けるよりも、あらかじめ POS タグがついたテキストを使った方がいいでしょう。
また、研究目的で POS タグの情報を使う場合は、巨大なコーパスを使う場合を除いて、POS タグを確認して修正した上で利用した方がいいでしょう。
バッチ処理でファイルのテキストに POS タグを付与するには、まずは、メニューのツールからバッチタグ付けを選びます。
Batch Tagger ウィンドウが開くので、テーブル下の追加ボタンをクリックしてファイルを選択するか、テーブルにファイル・フォルダを直接ドラッグ&ドロップします。
それぞれのタガーは、デフォルトの出力形式を持っていて、基本的にはどれも 1 行 1 単語ですが、情報の量が異なります。
word_tag, lemma, lemma_tag, word, tag はどのタガーでも出力形式紙として指定できますが、文ごとに区切るオプションは、Stanford CoreNLP を利用する時のみ使えます。分かち書きは、日本語 (MeCab) のみの対応となっています。word は、デフォルトの出力形式で単語として区分されたものごとに出力するもので、英語などの言語では、don't が do と n't に分かれる tokenization の処理となり、MeCab では分かち書きとほぼ同じ結果が得られますが、分かち書きは分ち書きのコマンドを使っているため、結果がまったく同じにはならない可能性もあります。Stanford CoreNLP で中国語のテキストを分かち書きする場合は、word を選んで処理します。
すべてのタガーに、処理のオプションがあります。TreeTagger と MeCab は 2 つですが、Stanford CoreNLP には 4 つのオプションがあります。
Sym (記号) 削除:チェックが入っていると、記号のタグを削除します。
文書処理設定を適用:チェックが入っていると、コンテクストタグとヘッダタグでの設定が適用されて、読み込まれた部分のテキストだけが処理されます。
括弧を記号に変換:Stanford CoreNLP は、カッコや引用符のタグにそれぞれのタグラベルがありますが、TreeTagger と同じような記号そのものをタグとして付与します。例えば、閉じる括弧 ) のタグは RRBReg ですが、これを ) に置き換えて )_RRBReg ではなく )_) という出力にします。
改行で強制文区切り:Stanford CoreNLP は、文末記号 (ピリオドなど) までを 1 文と解釈してタグを付与しますが、これにチェックが入っていると、ピリオドで終わっていない行 (見出し・ヘッディングなど) も改行文字で文が終わったとみなして処理をします。
ファイルを読み込んで、タガーを選びタグのタイプを設定して、オプションにチェックを入れたら、実行ボタンをクリックして処理を開始します。
次の例は Stanford CoreNLP で word を選び、中国語のテキストを処理したものです、文書処理設定を適用にチェックを入れて、<main></main> に囲まれた部分だけを処理しています。