#137 手法のはなし(2)
前回に引き続き、今回は「トピックモデル」について、村中(2021)と田畑(2020)を参考にしながら、分かる範囲で整理してみたいと思います。
村中(2021)によれば、トピックモデルとは、「Latent Dirichlet Allocation(LDA)を用いて、トピックとしてまとめられる潜在変数に基づき、観測された単語を生成する統計的なアプローチ」とされています。一方、田畑(2020)は、LDAを「確率論的トピックモデリングの代表的アルゴリズム」と位置づけ、大規模な文書データに潜む意味構造のマイニングに有効であることが、Blei et al.(2003)、Blei(2012a, b)、Fothergill et al.(2016)などによってすでに示されていると述べています。
村中の説明では、ここでいうトピックとは「同じ文書で現れやすい語彙の集合」を指します(岩田 2015)。文書内における各トピックの出現確率(topic prevalence)や、トピックごとの単語の出現確率(topical content)を推定することで、膨大な文書集合から効率的に情報を集約できる点が、トピックモデルの特徴だと言えそうです。
おそらく定義を簡潔にするため明示されていませんが、ここで想定されているトピックモデルは、Bag of Words に基づく単語レベルの共起を前提としています。そのため、語順や局所的な文脈関係、たとえば n-gram や skip-gram といった情報が直接モデル化されるわけではありません*。
次回は、こうしたトピックモデルの発展形の一つであり、また前回のお祝いの席でも「ぜひやってみたほうがいい」と勧められた CTM(Correlated Topic Model)について触れてみたいと思います。
*ChatGPTによる説明:
n-gram とは,連続する n 個の語(あるいは文字)を単位として扱う方法であり,語順や隣接関係を部分的に保持した表現である。
skip-gram は,n-gram を拡張し,語の間に一定数の語を挟むことを許容することで,より柔軟に局所的な共起関係を捉える手法である。
参考
岩田 具治(2015).トピックモデル.講談社.
田畑 智司(2020).英国 Classic Fiction コーパスの潜在的トピック:LDAによるテクストクラスタリング.言語文化共同研究プロジェクト, 2019, 47–58.
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research, 3, 993–1022.
Blei, D. M. (2012a). Topic modeling and digital humanities. Journal of Digital Humanities, 2(1).
Blei, D. M. (2012b). Probabilistic topic models. Communications of the ACM, 55(4), 77–84.
Fothergill, R., Cook, P., & Baldwin, T. (2016). Evaluating a topic modelling approach to measuring corpus similarity. In Proceedings of the Tenth International Conference on Language Resources and Evaluation.
keywords
[トピックモデル]