ニュース‎ > ‎

第45回名古屋地区NLPセミナー

2017/06/05 2:42 に ryo kimura が投稿

Sentencepiece : ニューラル言語処理向けトークナイザ

工藤拓 (Google)

ニューラル機械翻訳のアーキテクチャは従来法と大きく異なるとはいえ、入出力は慣習的に単語列が使われることが多い。 しかし、単純に単語列を用いると処理速度の低下や未知語の増加といった実用上の問題が生じる。ニューラル言語生成にはそれに即した単語分割が必要であろうという考えのもと、新しいトークナイザ Sentencepieceを開発・公開している。Sentencepeiceは、サブワードの一般化であり、生文から教師無しで分割を学習することで完全なEnd-to-End 処理を可能にしている。本発表は、Sentencepieceの概要と機械翻訳における実験結果を紹介するとともに、ニューラル言語処理向けのトークナイザのあるべき姿について議論したい。


ą
ryo kimura,
2017/06/05 2:42
Comments