CasualConc では、POS タグがついていないテキストに POS タグをつける処理をした上で単語と POS タグを分けて単語リストを作成できます。ただし、リストを作成するたびにタグ付け処理をするため、時間がかかります。繰り返し同じファイルでこの処理をする場合は、バッチタグづけの機能を使い、タグづけしたファイルを作成した上で、タグ付きテキストで単語リストを作成してください。
設定の WC にあるアドバンストでアドバンストモードにチェックが入っている状態でタグ分析にチェックを入れます。これで、その下にあるタグ処理にチェックが入れられる様になるので、チェックを入れます。
タグ処理は、macOS 標準の Tagger と、別途インストールされていれば、TreeTagger、MeCab が利用できます。TreeTagger、MeCab のインストールはこのページを参照してください。
ここでは、標準 Tagger を使ったタグづけ処理をして単語リストを作成します。単語リストは、単語もしくはレマでリストが作成できます。
標準 Tagger では、PennTree Bank などのタグセットと違い、Determiner、Verb、Noun などの品詞名が POS タグラベルになります。
次の例は、アメリカ英語の書き言葉コーおあすである FROWN とイギリス英語の書き言葉コーパスである FLOB に標準 Tagger でタグづけをし、異綴り処理をした上で、Log-Likelihood で特徴語の統計値を付与して、統計値の順に並べ替えたものです。