06 自然言語の統語構造における相互情報量の解析と数理モデル化

中石海,吉田遼,梶川康平,福島孝治,大関洋平(東大)

自然言語がどのような構造を持つか解明するため,コーパスの統計的性質を調べる研究は多い.しかしそのほとんどは文字列上で定義される量に注目しており,背後にある統語構造を直接調べる研究は少ない.そこで本発表では,統語構造上で定義される二種類の相互情報量を構文木のコーパスで測定した結果を報告する.また,これら相互情報量の振る舞いが,統語論の知見を踏まえたごく簡単な数理モデルによって定性的に再現されることを示す.