第3回勉強会

投稿日: 2015/12/02 10:50:08

日時：2016年1月27日(水) 17:00-19:00

場所：グーグル株式会社 (六本木ヒルズ森タワー44F)

発表者：徳永拓之 (スマートニュース)

タイトル：LSTMを用いた自然言語処理について

概要：LSTMのように、Recurrent Neural Networkを用いた手法の応用範囲が実はかなり広いということが、近年の研究で明らかになってきた。一方で、日本での研究の事例は少なく、まだ一般的な知見にはなっていない。この発表では、近年のLSTMについてのいくつかの研究の紹介と、筆者のLSTMについてのいくつかの実験結果の紹介を行う。

発表者：柴田千尋 (東京工科大)

タイトル：Strictly Piecewise 言語に関する確率モデルと学習について

概要：Strictly Piecewise 言語とは、近年 Rogers と Heinz により導入された、複数の単純なオートマトンの積(共導出)に分解できる言語クラスで、記号列の中の長距離の依存関係を簡潔に記述することができる言語である[1,3]。

n-gram における文字(または単語)の生成確率は直前の長さn の連続的な部分文字列に依存して与えられるが、確率的 SP-k 言語で定義される文字(または単語)の生成確率は、前に出てくる長さ k 個の不連続な部分文字列の全ての組み合わせに依存して与えられる。

共導出に対する確率を考えると、例えば、様々な実際の言語に出てくる、音素の長距離の依存関係をうまく捉えることができることが知られている[2]。例えば、ある自然言語では、文中において、[ ʃ ]や[ tʃ ]の音の後には[ s ] や[ ts ]の音が出てくることはない、というルールがあることが知られているが、それらを教師なしで学習することが可能である。しかし、複数の確率的オートマトンの積(共導出)という仕組みで生成確率が計算されるため、正確な最尤推定がまだ行われていなかったが、それを行う方法について説明する。また、ニューラルネット言語モデルとして見たとき、その階層を深くすることによる効果を見る。

[1]On Languages Piecewise Testable in the Strict Sense

[2]Estimating Strictly Piecewise Distributions

[3]Cognitive and Sub-regular Complexity