Document-Topic 出力ファイル (doc-topics.txt) のデータを扱います。
テーブルにデータを読み込むには、右上のデータ読み込みボタンをクリックします。
テーブル上のデータは、次のような情報になります。
Doc ID - MALLET の分析処理の過程でそれぞれのファイルに割り当てられた番号です。
ファイル名 - それぞれのファイル名です。
Topic 0 ... - それぞれのファイルで、各トピックに割り当てられた単語がどれくらいの割合を占めるかを示しています。E-3 や E-5 などは、10 の -3 乗 (0.001)、10 の -5 乗 (0.00001) を意味するので、2.409E-5 は、0.00002409 を表します。0.01 以上の値は青い文字で表示されます。
データの読み込みは、元々のファイルを分割して分析をしているものを統合するオプションがついています。いずれの場合も、データをまとめた場合は割合の値の平均になります。
元ファイル名 - テキストファイル処理ツールで分割処理をして MALLET コーパスリストに処理結果の情報を送ると、分割されたファイルの元ファイルの情報が保持されているので、その情報を元にして元ファイルごとにデータをまとめます
グループラベル - コーパスファイルのグループ分けでそれぞれのファイルにグループラベルを割り振ってある場合に、その情報を利用してグループごとにデータをまとめます。
グラフ
Document-Topic の結果データを使って、ヒートマップと箱ひげ図を描画できます。
ヒートマップ
どのファイルにどのトピックの語がよく現れるか、それぞれのファイルの中でのここのトピックに割り当てられた単語の割合を描画します。色の濃淡で値の大きさを示す必要があるので、色の濃淡で段階のあるカラーパレットを色で指定した方がいいでしょう。デフォルトは Gray になっていますが、ここでは、ヒートマップの名が示す Heat を使います。
描画するトピック
すべて - すべてのトピックを描画します。
選択した Topic のみ (Topic-Key-Doc) - Topic-Key-Doc の結果テーブルで選んだトピックのみを描画します。
選択した Topic のみ (指定) - 下に現れるテキストボックスに、コンマ区切りで描画したいトピック番号を記入します。
標準化 - 割合のデータで正の値しか取らないので、ヒートマップを描画する際に値の幅が限られてコントラストのあるグラフにならないため、標準化したデータを使った方がいいでしょう。デンドログラムを描く (階層的クラスター分析) 場合は、距離を元にして分析を行うため、尺度が一致している必要がある。ここで扱うのは割合データなので、あまり心配ないが、色のコントラストの面からだけでも、標準化したデータを用いた方がいいでしょう。
縦横入れ替え - グラフの横と縦のデータを入れ替えます。扱うファイル数が多い場合は、これにチェックを入れた方がいいでしょう。
デンドログラムは次のオプションがあります。
Both - トピックとファイルの両方でデンドログラムを描画します。
Row Only - 行データ (デフォルトではファイル) のみデンドログラムを描画します。
Col Only - 列データ (デフォルトではトピック) のみデンドログラムを描画します。
None - クラスター分析を行なってファイルとトピックはグループ化されますが、デンドログラムは描画されません。
None (並び順を保持) - クラスター分析は行わず、ファイルもトピックもそれぞれの元々の並び順を保持して描画されます。
下の図は、横がトピック、縦がファイルの結果になります。色の薄いところが高い値 (割合が大きい) であることを示しています。
このような分割したテキストを扱う場合は解釈がとても難しいので、元のファイルごとにまとめて扱いたい。そのような場合は、分割したファイルを統合処理のオプションをオンにして、どのようにまとめるかを選びます。テキストファイル処理から出力フォルダを MALLET のコーパスリストに送ったコーパスで分析した結果の場合は、元ファイル名でまとめることができます。グループラベルを選ぶと、コーパスファイルのグループ分けで指定したグループごとにまとめられます。これは、データを読み込むときに行う統合処理と同じ結果となり、値は統合されるファイルの値の平均値になります。
グラフの要素の指定
ラベルサイズ - X 軸、Y 軸のラベルの文字の大きさを指定します。
余白 - ラベル文字が収まるように余白を変更してください。
サイズ - グラフの出力サイズをインチで指定します。トピックスやファイル数が多い場合はここで調整してください。
箱ひげ図
箱ひげ図は、データの分布を見るためのグラフで、ここでは、それぞれのトピックに含まれる単語の割合がファイルによってどのようの異なるのかを見ることができます。ここでは分割されたファイルをグループごとにまとめて描画するため、コーパスファイルのグループ分けを参照して、ファイルのグループ分けを行なってください。
箱ひげ図はすべてのトピックについて描画するのではなく、特定のトピックで値の分布がどうなっているかを比べるものなので、トピックを指定して描画します。ここでは、Topic-Key-Doc の結果の α 値が上位 3 つのトピックを描画します。
グループは、どのように箱ひげ図をまとめるかで、トピックを選ぶと、同じトピックのすべてのグループの箱ひげ図がまとめられて、グループを選ぶと、同じグループのすべてのトピックがまとめられます。
結果は、左側がグループをトピックごとにまとめたもので、右側がトピックをグループごとにまとめたものとなります。
箱ひげ図は、グラフに色をつけたり、それぞれの値を一次元散布図としてプロットしたり、すべてのグラフを統合するオプションがあります。グラフを統合する場合は、グループラベル (オプション一番上のグループ) をグラフ上に表示させることもできます。
これらのオプションを入れて、グループラベルを上に表示したものです。
グループラベルをしたに表示する場合、グラフの下の余白を増やしたうえで、ラベルのオフセットを指定して (ここでは 5) 描画したものです。