Diagnostics は、diagnostics.xml 出力ファイルのデータを扱います。Diagnostics には、さまざまな統計値が表示され、トピック数決定の判断材料とします。
テーブルにデータを読み込むには、右上のデータ読み込みボタンをクリックします。
上のテーブルには、トピックごとの統計値が表示され、そこでトピックを選ぶと、下のテーブルにそのトピックに割り当てられた単語のリストと統計値が表示されます。
トピック
Tokens (トークン数) - 各トピックに割り当てられた単語 (トークン) の総数 (合計) です。
Entropy (文書エントロピー) - トピックが文書全体にどの程度均等に分布しているかを示します。値が低い場合は少数の文書に集中し、高い場合は多くの文書に分布しています。
Word Length (単語長) - トピックの上位語 (分析で指定した語数で下のテーブルに表示される単語数) に含まれる単語の平均文字数です。
Coherence (コヒーレンス・一貫性) - トピックの上位語が文書内でどの程度一緒に現れるかを示します。0 に近いほど一貫性が高いとされます。
Uniform Distance (均一分布距離) - 「すべての単語が同じ確率で現れる」と仮定した分布と、実際のトピックの単語分布との差です。値が大きいほど特定の単語に偏っていて、トピックがより特徴的であると判断します。
Corpus Distance (コーパス距離) - トピックの単語分布が、コーパス全体の単語分布とどれくらい違うかを示します。値が大きいほど、コーパス全体に比べてそのトピックが独自性を持つと判断します。
Effective # of Words (有効語数) - 実際にそのトピックを形成している単語の数を推定したものになります。値が大きければ、多くの単語が少しずつ寄与していて拡散的であり、小さい値なら少数の単語に集中していてトピックが明確であると判断します。
Token/Doc Discrepancy (トークン/文書のずれ) - 単語の出現回数 (トークン数) と、その単語が出現する文書数とのずれを示します。例えば、ある単語がごく少数の文書にしか現れないのに、その中で大量に使われている場合などは高くなります。
Rank 1 Documents (第 1 位文書の割合) - そのトピックが「最も多く割り当てられたトピック」となっている文書の割合を示します。この値が高ければ、多くの文書でこのトピックが主題的役割を果たしていると判断します。
Allocation Count (割当文書割合) - そのトピックが文書全体の 30% 以上を占めている文書の割合を示します。
Allocation Ratio (割当比率) - トピックが文書の半分以上 (50%以上) を占める場合と、ほんの一部 (2%以上) だけ出現する場合の比率を示します。値が高いと、そのトピックは文書を強く支配しているとされます。
Exclusivity (排他性) - そのトピックの上位語が、他のトピックの上位語とどの程度重ならないかを示します。値が高いほど、上位語がそのトピックに固有であると判断できます。
トピック上位語
Count (出現数) - その単語が指定されたトピックに割り当てられた回数です。単語全体の出現数ではなく、あくまで「このトピックに属する」と判定された回数を表します。
Probability (確率) - トピックにおけるその単語の出現確率です。すべての単語の確率の合計は 1 になり、値が大きいほどその単語がそのトピックを代表していることを示します。
Cumulative Probability (累積確率) - 上位語を順に並べたときの累積的な出現確率です。上位数語でトピックの大部分を占めているのか、それとも多くの語に分散しているのかを確認することができます。
Documents (文書数) - その単語が出現する文書の数です。コーパス全体でいくつの文書に含まれているかを示します。
Word Length (単語長) - その単語の文字数です。英語などでは短い機能語と長い内容語を区別する目安にもなります。
Coherence (コヒーレンス・一貫性) - その単語が同じトピックの他の上位語とどれくらい一緒に現れるかを示す指標です。値が小さいほど他の語と一緒に出現しやすく、トピック内で一貫性があると解釈されます。
Uniform Distance (均等分布からの距離) - 「すべての単語が同じ確率で現れる」と仮定した分布と比べたとき、その単語がどれくらい特化して使われているかを示す指標です。値が大きいほど、均等ではなく特定のトピックに強く偏っていることを意味します。
Corpus Distance (コーパス距離) - コーパス全体の単語分布と比較して、その単語がトピック内でどれくらい特徴的かを示す指標です。値が大きいほど、その単語はコーパス全体ではあまり一般的ではなく、そのトピックを特徴づける語であると解釈できます。
Token/Doc Discrepancy (トークン/文書のずれ) - その単語の出現回数 (トークン数) と、実際に出現する文書数との間にどの程度ずれがあるかを示します。たとえば、ある単語がごく少数の文書に集中して大量に出現している場合、この値は大きくなります。
Exclusivity (排他性) - その単語が他のトピックにあまり現れず、このトピックに特有である度合いを示します。値が高いほど「このトピックらしい」単語であることを意味します。
グラフ
Diagnostics では、ワードクラウド、棒グラフ、散布図の 3 種類のグラフを描画できます。
ワードクラウド
ワードクラウドは、選んだトピックに含まれる上位の単語、つまり、下のテーブルに表示される単語の情報を利用してワードクラウドを描きます。利用できる統計値は下に示したとおりです。色は、黒一色、R の基本のカラーパレット、Brewer カラーパレットから選ぶことができます。Brewer は、カラーパレットを集めたもので、このサイトなどで、どのような色の組み合わせでカラーパレットが作られているかが確認できます。Brewer の個々のカラーパレットはその下にオプションが表示されるので、そこで選びます。
Brewer の Dark2 カラーパレットを選ぶと、デフォルトで左のような図になりますが、ランダム順序とランダム配色にチェックを入れると、配置が値が高いものが中心であったものがランダムになり、配色も値が高いものからカラーパレットの順番だったものがランダムになって、右のような図になります。
スケールは、文字の大きさの最大と最小を指定します。デフォルトは、最大 4、最小 0.5 のはずです。頻度制限は、チェックを入れるとリストの上からその数までの単語のみを対象としたグラフになります。指定しないとリスト (下テーブル) のすべての単語を対象とします。
乱数シードは、ランダム配置、ランダム配色を利用する際に、乱数の初期値を固定して、同じ結果が得られるようにします。
棒グラフ
棒グラフは、トピックの上位語の統計値を棒グラフにして示すためのものです。描画できる統計値は下に示す通りで、Count (出現数) は、コーパス全体の出現数 (合計) を一緒に描画できるオプションがあります。
そのほかのオプションは、色の指定で、R で使える色から選びます。制限は、テーブルの上から指定した数の単語について描画します。
下の図は、左がトピックの出現数 (Count) のみで、右側がコーパスでの出現数 (合計) を一緒に描画したものになります。単語が y 軸のラベルになって、全体が表示されるように左側の余白を少し多めに取っています。ラベルサイズは項目数に応じて変更してください。
散布図
散布図は、上のテーブルのトピックごとの統計値を利用して描画します。
X 軸、Y 軸に割り当てられる統計値は、テーブル上の統計値のすべてです。プロットは円で描かれて、サイズは一定 (固定) にするか Tokens の値を使うかを選べます。表示のオプションとしては、円の境界線色を指定することと、塗りつぶしてその色を指定するオプションがあります。塗りつぶしの色は α で透明度を指定できます。
上のオプションを指定して描画したものが下の図になります。ラベルの大きさ (ラベルサイズ) プロットする描画エリアのサイズ (プロットサイズ) も指定できます。