home‎ > ‎

機械翻訳は使えるか

機械翻訳は使えるか(2010年7月22日 書きおろし)

  過去の経験にとらわれない

機械翻訳(以下MT)をローカリゼーションの翻訳現場で使おうとする試みは80年代にもあり、当時の経験からMTの性能に対して否定的な印象を持っている方も少なくないと思われますが、MT技術は特に近年、自然言語処理研究の進歩に後押しされて日進月歩の勢いで改良が進められているため、過去の経験にとらわれて先入観を持っているとMT関連の新製品や新技術の価値を評価しそこなう危険があります。売り手の宣伝文句に乗せられないという点では過去の経験を活かしながらも、新しいMT技術を先入観をもたずにフェアに評価する気持ちがまず必要でしょう。

学界と業界で異なるMTの評価基準に注意する


たとえばユーザーサポート用のコンテンツの場合はMTの出力結果をそのまま(=人間の後編集なしで)ウェブ上で提供するケースもありますが、ドキュメント類を翻訳する場合の下訳としてMTを利用する場合は、MTの出力結果を人間の翻訳者が後編集(ポストエディット)することになります。 
 
自然言語処理の研究者は近年のMT開発に大きな貢献をしていますが、現在の学界ではMTが出力した訳文をそのまま翻訳とみなしてその品質を上げることが課題となっており、性能の基準もその観点から定義されています。 

一方、翻訳業界でMTを下訳として利用し、その出力を後編集して読者に提供する場合は、後編集作業の負担をどれだけ軽減できるかがコスト削減の効果を左右します。すなわち、MTの出力がそのままで日本語として通用しなくても、もしもポストエディタの負担をより大きく軽減する素材として活用できるならば、そのほうが価値が高いわけです。 

将来的には学界もMT出力後の人間の後編集を視野に入れた研究に取り組むかもしれませんが、自然言語処理学界の研究テーマを眺めていると、現状の課題設定の範囲内で研究すべきことがまだいろいろありますから、当面は後編集工程を含むMTプロセス全体の合理化は翻訳業界の仕事になると思われます。

言語資産の共有を視野に入れる

統計的機械翻訳(SMT)では、品質の優れた対訳コーパス(翻訳業界に分かりやすい言葉で言えば翻訳メモリ)を大量に利用できることが翻訳性能を左右することは原理的に明らかとされています。 

自然言語処理の学界は研究に利用できるコーパスの入手に苦労している面がありますが、ローカリゼーション翻訳業界では自分の会社の翻訳メモリは(ときには大量に)手元にあったりします。もちろん自社の翻訳メモリだけでもSMTの言語資産になりますが、もしも同じ分野の翻訳業界内で翻訳メモリを共有できればそれだけSMTの翻訳性能が改善できる可能性があります。 

同じ分野の翻訳業界内での言語資産(翻訳メモリ)共有についてはすでにTAUSのTDAのような試みがあって成果も報告されていますが、日本語のように訳語のばらつきがある言語の場合にも共有への壁を乗り越える苦労に値するような性能上の改善が期待できるかどうかは、今後明らかになってくると思われます。

品質改善のカギとなる原文制御

ルールベースのMTでは、翻訳品質を改善するために原文を制御するという前編集(プリエディット)の手法が研究され、そのためのツールもすでに複数販売されています。たとえば英文和訳の場合、原文となる英文のワード数が長くなるほど後編集の負担が重くなることは経験的にわかっていますし、それ以外にもMTエンジンの特性にあわせた用語置換や修辞制限などを組み合わせて、「ポストエディットの負担が軽くなるような原文を著述する」ノウハウが求められています。