home‎ > ‎

統計的機械翻訳の理論と実装

発表機会:2010年12月13日 20周年記念JTF翻訳祭(分科会発表)

社団法人日本翻訳連盟が主催する20周年記念JTF翻訳祭の支援ツール分科会で発表しました。イベントの概要は下記のリンクから参照できます。


【概要】
統計的手法は情報処理の多くの分野でアルゴリズムのパラダイムシフトをひきおこしている。自然言語処理の応用分野においても、かな漢字変換ではすでに統計的手法が従来手法を駆逐し、機械翻訳では90年代後半から統計的手法に基づく研究が主流となった。対応言語が急増するGoogle の機械翻訳でも統計的手法が全面的に採用されている。統計的機械翻訳ではパラレルコーパスと呼ばれる大量の翻訳データがないと翻訳品質が改善されない特性があり、学界の研究者は翻訳データの入手に苦労しているが、ローカリゼーション業界では十年以上にわたって蓄積してきた翻訳メモリーをパラレルコーパスに転用して学界の研究成果を実務に活かせる可能性が見えてきた。
このような技術的展開をふまえて、このセッションでは統計的機械翻訳の基礎知識を提供するとともに、市販製品とオープンソースソフトウェアから現在利用可能な実装をいくつか選んで紹介する。

講演のポイント:
機械翻訳の歴史(1947年から2010年まで)
機械翻訳の方式(構文解析、用例翻訳、統計翻訳)
自然言語処理の基礎技術(形態素解析、句構造同定、構文解析)
統計的機械翻訳の原理(言語モデル、翻訳モデル、デコーダー)
統計的機械翻訳の特徴(パラレルコーパスの重要性と翻訳メモリー)
機械翻訳の評価手法(人間による評価と自動評価、BLEU)
統計的機械翻訳の市販製品(Language Weaver、Pangeanic、他)
統計的機械翻訳のオープンソースソフトウェア(Moses)とTDA

発表で使用したスライドをこのページに添付しました。下記の[添付ファイル]からダウンロードできます。

また、発表の最後に統計的機械翻訳システムを開発・販売している Pangeanic の Manuel Herranz 氏から短いプレゼンテーションを行っていただきました。
Herranz 氏のスライドをあわせて[添付ファイル]に置きましたのでご覧ください。
Ċ
Hiroki Kawano,
2011/01/31 18:36