この機能を利用するには、設定の WC にあるアドバンストでアドバンストモードにチェックを入れます。
実験的な機能として、2-gram リストの作成オプションに連続する 2 つの単語の n-gram ではなく、指定した範囲、位置にある単語との 2 単語の組み合わせのリストを作成できます。
アドバンストモードで 2-gram を選ぶと、範囲チェックボックスが現れます。
範囲の選択肢は次のとおりです。
R1-R# - ある単語 key について、R1 番目から R# 番目までの位置に現れる単語との組み合わせのリストを作ります。R1-R3 であれば、R1 (right 1) は key の次の単語で、R3 (right 3) は key から 3 つ目の単語になります。つまり、key-R1, key-R2, key-R3 の 3 つの組み合わせが集計されます。
R# - ある単語 key について、R# 番目の位置に現れる単語との組み合わせのリストを作ります。R3 であれば、key-R3 という組み合わせが集計されます。
In Para - 改行記号で区切られた文字列、つまり段落 (paragraph) 内でのすべての 2 つの単語の組み合わせを集計していきます。機能後の組み合わせはあまり意味がないので、ストップワードを事前に排除した組み合わせを集計すれば何か見えるかもしれないと考えてつけた機能です。
次の例は、普通に 2-gram のリストを作成したものと、ストップワードを排除して R1-R3 で組み合わせの頻度を集計したものです。単純な頻度集計ではそれほど興味深い結果にならないかもしれませんが、色々試してみてください。