#136 手法のはなし(1)
昨日、ちょっとしたお祝いの席があり、そこで久しぶりにトピックモデルの話題が出ました。しばらく触れていなかった分、改めて背景や用語を整理しておきたいなと思い、今回は村中(2021)を手がかりにまとめてみます。
村中(2021)は、最終的に「質的データの解析手法として、自然言語処理技術として発展を続けている構造的トピックモデル(Structural Topic Model: STM)」を紹介していますが、本日の記事では、その前段階として位置づけられている「これまでのテキスト解析」の中から、まずはテキストマイニング(text mining)について整理しておきます。
テキストマイニングとは、「文字列を対象としたデータマイニングであり、文字列をさまざまな観点から分析し、有用な知識や情報を抽出すること」(高田・小池 2000)を指します。具体的には、単語の共起分析や類似度分析、分類など、さまざまな分析手法が含まれます。
その中でもよく使われるのが、単語の出現頻度に基づく Bag of Words(BoW)です。たとえば、「悲しい」という単語が多く出てくる文書は、「悲しいこと」について書かれた文書である、といった想定に基づいて特徴づけを行います。
一方で、文書中に書かれていない単語は 0 として扱われ、「この文書には本当は〇〇という単語も含まれていそうだ」といった期待や推測は考慮されません。あくまで、その文書に実際に出現した単語の数だけで文書の特徴が表現される、という点が特徴です。
詳しい話は次回に回しますが、これに対して、確率モデルを通じて「潜在的に出現しうる単語」の出現確率を推定するトピックモデル(Blei 2012)では、より体感に近い形で文書を捉える分析が可能になります。
参考
Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77–84.
高田 哲司・小池 英樹(2000).見えログ:情報視覚化とテキストマイニングを用いたログ情報ブラウザ.情報処理学会論文誌, 41, 3265–3275.
村中 誠司(2021).質的データの解析―構造的トピックモデルを用いた「意味」の統計的解析―.心身医学, 61(8), 715–721.
keywords
[テキストマイニング] [トピックモデル]