第9回勉強会

投稿日: 2017/09/27 9:23:36

日時 :2017年10月30日(月) 17:00〜

場所 :デンソーアイティーラボラトリ(株)

(渋谷区渋谷2-15-1 渋谷クロスタワー28F)

https://www.d-itlab.co.jp/company/access/

発表者:

若林啓 (筑波大学)

タイトル:

自然言語文章の教師なしフレーズ分割

概要:

自然言語処理では,古くから現在に至るまで,単語を分析の基本単位として用いることが一般的である.しかし,単語は必ずしも文章中で表現されている意味単位と対応しない.例えば,「A station wagon came to a stop」という文章では「station wagon」で1つの実体を指しているし,「came to a stop」で1つの動作を意味している(ように思える).このようなフレーズを捉えることの重要性は従前より認識されており,コロケーションの研究などで長らく扱われてきたが,何が正解と言えるのかが不明瞭でタスク駆動的な研究方法が適用しにくいということもあり,十分に研究が進んでいるとは言い難い.本発表では,コロケーション部分を「抽出」するアプローチよりも,単語列全体をフレーズ列に「分割」するアプローチの方が有効である可能性を示した上で,フレーズ分割の原理と手法,関連研究について紹介する.

特に本発表では,正解の分割があらかじめ与えられない教師なしフレーズ分割を中心に扱う.これまでの教師なし単語分割の研究などにより,正解が与えられていなくても自然な分割を行えるだけの統計的特徴が自然言語には内在していると示唆されている.その原理について説明した上で,(NPYLMを含む)様々な言語モデルを用いて教師なしフレーズ分割が実現できる可能性について議論したい.

資料:TokyoCL.pdf