CasualConc では、POS タグがついたテキストで、単語と POS タグを分けて単語リストを作成できます。
設定の WC にあるアドバンストでアドバンストモードにチェックが入っている状態でタグ分析にチェックを入れます。
タグタイプは次の 4 つの選択肢があります。
Word_Tag:単語とタグがアンダーバー ( _ ) でつながっている形式で、単語とタグを分けて集計します。
Word_Tag:単語とタグがアンダーバー ( _ ) でつながっている形式で、タグだけを集計します。タグリストを作ることになるということです。
TreeTagger:TreeTagger 標準の、単語<TAB>タグ<TAB>レマ、という 1 行 1 単語の形式のファイルを処理するオプションです。単語あるいはレマとタグを分けて集計します。単語で集計するかレマで集計するかを選べます。
TreeTagger (no sym):TreeTagger の標準では、記号にもタグがついているため、記号も集計されますが、こちらを選ぶと、記号は集計されません。
Word_Tag を選んでタグ付きテキストで単語リストを作ると、次のように POS は別の列に表示されます。これにより、並べ替えも POS で行うことができ、絞り込みも POS で行えます。
このモードでも、異綴りの処理は機能しますが、下の例のように per cent は、複合語として POS が 2 つ付くため、1 単語の percent と同じ単語とはみなされません。