Word Count には、タブ区切りもしくはコンマ区切り (CSV) のプレインテキストで作られた単語・n-gram リストを読み込む機能があります。
メニューのファイルから単語リストを読み込むを選びます。
単語リストは、プレインテキスト (.txt) でタブ区切りかコンマ区切りで用意します。読み込めるファイル形式の制限はないので、CSV (.csv) などの拡張子のファイルも読み込めますが、中身がプレインテキストでない場合でも、プレインテキストとして読み込みを試みます。
オプションが表示されていない場合は、左下のオプションを表示ボタンをクリックして表示させてください。
文字コードは、UTF-8 以外も指定すれば読み込めますが、自分で作る場合は、UTF-8 (Mac 標準) で保存するのがいいでしょう。
テーブルは、左右どちらかを選択て、頻度順に並べ替える場合は、並べ替えにチェックを入れます。
フォーマットはタブ区切りかコンマ区切りを指定します。
単語か n-gram かの指定ですが、2-grams の読み込み時には、区切りが通常 (シングルスペース) かタブ区切りかが選べます。これは、ネットワーク分析のデータとして 2-grams を使うときに、複合語の単語の区切りと別に扱う単語の区切りを分けるために、明確に別の単語として扱う文字列の区切りをタブで示しているものを生かすためです。
最初の n 行を無視のオプションは、リストの情報やヘッダラベルなどが含まれている場合にそれらを無視するための設定です。
総ファイル数は、含ファイル (その単語・n-gram が含まれるファイル数) がリストに含まれる場合、含ファイルの列番号を指定して総ファイル数を入力すると、含ファイル割合が計算されます。
総トークン数がわかっている場合 (リストの頻度の合計が総トークン数と異なる場合) は、トークン数で指定した値が使われます。
単語、頻度、含ファイル、統計は、列番号を指定します。統計はオプションで指定することができるので、キーワード統計値などの情報がある場合はチェックを入れて列番号を指定します。
デフォルトでは、上に示したファイルの例のように、1 列目が単語、2 列目が頻度で、タブ区切りになっているプレインテキストファイルを想定しています。
サンプルファイルを読み込んだ結果が次のようになりました。単語と頻度だけのファイルで、総トークン数 (tokens) は指定されていないのでリストの頻度の合計が示されて、タイプ数 (types) は、リストの単語の数が示されています。割合はその単語の頻度をリストの単語の頻度の合計で割った値のパーセントが示されています。