#138 手法のはなし(3)
Blei and Lafferty(2006)では、LDAモデルについて、各文書に含まれる単語は、複数のトピックが混ざり合った結果として生成されると仮定していることが説明されています。ここでいうトピックとは、語彙全体に対する確率分布として捉えられるものです。
一方で、LDAの限界として指摘されているのが、トピック同士の関連性(相関)をモデル化できないという点です。論文中では、その例として、遺伝学について書かれた文書は、X線天文学よりも、病気についても書かれている可能性が高いにもかかわらず、LDAではこうしたトピック間の結びつきを表現できないことが挙げられています。
“A limitation of LDA is the inability to model topic correlation even though, for example, a document about genetics is more likely to also be about disease than x-ray astronomy.”
こうした問題意識を背景に提案されているのが、Correlated Topic Model(CTM)です。CTMの重要な点は、ロジスティック正規分布(logistic normal distribution)を用いることで、トピック間の相関、つまり「どのトピック同士が一緒に出やすいか」を捉えられるようにした点にあります。
LDAでは、トピックはDirichlet分布によって生成されるため、トピック同士が独立であるという強い仮定が置かれています。これに対してCTMは、その仮定自体が現実の文書集合には必ずしも当てはまらないのではないか、という立場をとっています。論文中でも、次のように述べられています。
“The CTM is more expressive than LDA. The strong independence assumption imposed by the Dirichlet in LDA is not realistic when analyzing document collections, where one may find strong correlations between topics.”
さらにCTMの利点として、観測されていないトピックであっても、相関のあるトピックに基づいて予測が可能になる点も挙げられています。トピック間の関係性をモデルに組み込むことが、より良い予測につながる、というわけです。
“Modeling correlation can lead to better predictive distributions.”
それぞれの特徴について、説明としては少しずつ理解できてきた気がします。あとは実際に手を動かして確かめてみたいところです。来年の目標のひとつになりそうです。
参考
Blei, D., & Lafferty, J. (2006). Correlated topic models. Advances in neural information processing systems, 18, 147.
keywords
[トピックモデル]