ギャップ n-gram は、p-frame (phrase frame) とも呼ばれ、n-gram の単語のうち、一箇所をギャップ (スロット) とするもので、CasualConc では、いずれかの位置の単語がギャップになるフルと単語と単語に挟まれた単語の位置だけをギャップとする p フレームに分けて集計できます。一般的にはどちらも p-frame として扱われています。
この機能を利用するには、設定の WC にあるアドバンストでアドバンストモードにチェックを入れます。
同じくアドバンストにある、ギャップ n-grams で、フルと p フレームの指定をします。例えば、in the middle of は、フルでは 4 箇所のギャップ位置ごとに集計されて、p フレームでは、両端の位置がギャップになるものは集計されません。
フル - * the middle of, in * middle of, in the * of, in the middle *
p フレーム - in * middle of, in the * of
3-gram 以上の n-gram を選ぶと、ギャップと詳細とラベルのついたチェックボックスが現れます。ギャップにチェックを入れるとギャップ n-gram のリストを作成できます。詳細にチェックを入れると、ギャップ位置に現れる単語の頻度が集計されます。
頻度上位では、フル (上) と p フレーム (下) ではあまり違いがありませんが、総トークン数を比べるとフルの方が倍になっているのがわかります。これは、4-gram では、フルでは 4 回、p フレームでは 2 回集計されるためです。
ギャップ位置に現れる単語の集計まで行うと、数百万語のコーパスであっても、かなりのメモリを消費します。400 万語のコーパスで、フルでギャップ位置に現れる単語を集計してリストを作成したところ 30GB 程のメモリが使用されました。お使いの Mac がそこまでのメモリを搭載していなければ、スワップが発生することになります。
ギャップ位置に現れる単語の集計は、テーブル上では上位しか確認できませんが、コンテクストメニューからギャップに該当する単語のリストを表示を選ぶと、ギャップ位置の単語パネルが表示され、リスト全体を確認できるとともに、リストの単語・頻度をコピーして利用できます。