home‎ > ‎

翻訳資産について考える

発表機会:2005年9月2日 TCシンポジウム2005(研究発表)

テクニカルコミュニケーションシンポジウム2005で発表しました。イベントの概要は下記のリンクから参照できます。


発表の梗概をこのページに添付しました。下記のリンクからダウンロードできます。

翻訳資産について考える

翻訳メモリツールを導入すると翻訳対象文書に旧版が存在する場合や表現の繰り返しが多い場合に経費削減効果が期待できることはよく知られているが、翻訳成果物である翻訳メモリや用語集の管理まで外注業者に丸投げするのは得策ではない。知的資産でもある翻訳メモリと用語集については発注元が社内で管理し、それらの「翻訳資産」を最大限に活用しつつ外注業者を上手に利用することが、翻訳品質の改善とコストの削減に役立つ。この論文では翻訳メモリの翻訳資産としての積極的利用を提案するとともに、発注元・ベンダー・翻訳者を含む業界全体としてのローカリゼーション翻訳プロセスの改善可能性を探る。

ローカリゼーション工程の現状

筆者が従事するローカリゼーションはおおむね「ソフトウェアのマニュアルを翻訳する」仕事であり、その業界は翻訳を発注するソフトウェア開発会社(以下「発注元」と呼ぶ)、翻訳を担当する翻訳者、発注元と翻訳者を仲介するローカリゼーション事業者(以下「ベンダー」と呼ぶ)の三者から構成される。

仕事の進め方としては、まず発注元がベンダーに対して翻訳対象原稿、翻訳仕様(スタイルガイドとも呼ばれる)、用語集(グロサリとも呼ばれる)を提供する。ベンダーは翻訳の作業量を見積もり、与えられた納期でこれを翻訳するのに必要な人数の翻訳者(多くの場合に在宅のフリーランサー)と契約して作業の進捗全体を管理する。翻訳者からベンダーに納品された翻訳原稿はベンダー内部で品質チェックを受け、その後、発注元からの要求に応じてDTPやPDFやヘルプなどの納品形態への変換などを施した上で最終納品される。

このようなローカリゼーションが仕事として誕生してから15~20年を経ているが、その期間中に業界が経験した最大の技術革新のひとつが「翻訳メモリ」ツールの導入である。翻訳メモリツールは、マニュアルのように改訂を繰り返す文書の翻訳において、旧版の翻訳をセンテンスまたはパラグラフ単位でデータベースに登録しておき(=翻訳メモリ)、新版の翻訳においてその翻訳メモリを可能な限り徹底してリサイクルすることにより、新版の翻訳コスト削減を実現するツールである。翻訳支援ツールとしてはTRADOSが最大のシェアを持ち、これにSDLX、Déjà Vu、Transitなどが続く。

この論文では筆者の個人的経験にもとづいて、翻訳メモリをローカリゼーション工程の生産性改善に役立てる方法をいくつか提案する。

QA負荷のタイムシフト

一般にローカリゼーションでは原文を受領してから訳文を完成して納品するまでが繁忙期であり、次のバージョンアップまでの数ヶ月から十数ヶ月の期間は閑散期になる。

ビジネスでは常に「時は金なり」と言えるが、ローカリゼーションにおいては特に原語版がリリースされてから翻訳版がリリースされるまでの時間差を短縮することには大きな価値がある。この時間差をゼロに一致もしくは近づけるために、100%マッチとなる訳文については翻訳プロジェクト開始前に「デバッグ」が完了していることが明らかに得策である。もちろん旧版の翻訳が適切に行われていれば100%マッチの箇所で品質上の問題が生じることはあまりないはずだが、現実のプロジェクトでは旧版の翻訳品質に満足できないケースもしばしばあるので、100%マッチのセグメントに対しても翻訳レビュー(赤入れ)が必要になる場合がある。

この100%マッチ箇所の翻訳品質の問題については、もしも翻訳開始前に翻訳メモリの直接編集によりメモリ蓄積文の翻訳品質改善が計られていれば、ローカリゼーションプロジェクトが忙しくない時期に対処することが可能になる。すなわち、原語版の製品のドキュメントがハンドオフされる前に旧版の翻訳メモリをあらかじめQA(品質保証)の視点からレビューし、問題があれば事前に改修しておく。

この方法により、繁忙期のワークロードを閑散期に時間的にシフトして処理できる。

メモリ内在化による翻訳仕様の最小化

翻訳仕様に不備があったりあまりに膨大であったりすると、ベンダーと翻訳者にそれだけ負担がかかり、結果的にローカリゼーション工程全体としての生産性が落ちる。

発注元によって状況は異なるが、国内で長年ローカリゼーションを行っている大手企業では翻訳仕様がかなりのボリューム(数十ページ)に膨らんでいる場合がある。このような発注元の仕事を受けた翻訳者は、翻訳に着手する前に大規模な翻訳仕様書をまず読んで頭にいれなくてはならないためにオーバーヘッドの負荷が大きいし、翻訳中も煩雑な仕様への準拠に配慮が向いてしまい、翻訳内容の品質改善に集中できない状況になる。

翻訳者から翻訳の納品を受けるベンダーにおいても、翻訳仕様が膨らむほどその形式的なチェックに納品前の時間をとられ、翻訳内容のレビューに割く時間がその分だけ減る。このようなケースでは、翻訳仕様が翻訳品質に対してプラスでなくマイナスに作用している。

ここで翻訳者の本来的業務は何かを考えると、大事なのはある概念を言葉で表現することであり、その品質は属人性が高い(=翻訳は翻訳者で決まる)ことが経験的に分かっている。したがってベンダーとしては、第一に優れた翻訳者と契約すること、第二に契約した翻訳者ができるだけ100%に近い能力を発揮できる作業環境を整えることが重要な仕事となる。そう考えたとき、複雑すぎる翻訳仕様のもたらす不利益は大きい。

この問題=複雑すぎる翻訳仕様が生産性を損なう問題は、翻訳メモリ内に翻訳仕様を「内在化」させることにより、かなり解決できる可能性がある。

すなわち、翻訳メモリ内のテキストをすべて翻訳仕様に準拠させて翻訳メモリを翻訳仕様の「判例集」として機能させることにより、従来は翻訳仕様に記載していた細則を「翻訳メモリに準拠する」という原則に置き換えることができる。これにより翻訳仕様の内容を大幅に整理し、最小化された翻訳仕様を翻訳者に提供できるようになる。

用語集の翻訳メモリへの<還元>

用語についても、用語集に登場する用語というのは本来すべて原文のどこかに含まれているはずであり、翻訳メモリのどこかに登場するはずであるから、「もし適切なツールさえ提供されれば」(これが難しい場合もあるが)その用語の登場箇所を検索することにより対応する訳語を調べることが常にできるはずである。このように翻訳メモリに埋め込まれた用語集を参照することは、文脈に応じて訳語が変化するような場合にも正にその文脈の中での訳され方を参照できるという利点もある。

いったん発注元・ベンダー・翻訳者の間でこの「用語集は翻訳メモリに内在化されているもの」という認識が共有されれば、その後は、新規に受注した仕事で新規文書と翻訳メモリを比較してその差分の領域だけを対照にした「差分新規用語集」を作成して翻訳者に提供するだけですむ。その用語数は、従来の翻訳メモリ全体に対する用語集よりもはるかに少なくて済むはずだし、新規差分の翻訳が完了すればその内容も翻訳メモリに組み込まれるので、その後は二度と同じ用語が差分用語集に登場することはない。

コーパスとしての翻訳メモリ

翻訳仕様と用語集を翻訳メモリに内在化できるということを別の表現で言い換えると、翻訳メモリは翻訳仕様および用語集に対してコーパスとして機能する、と言える。

コーパスとは元来は辞書編纂時に言葉の定義の典拠となる用例を収集した資料を指す用語であり、機械翻訳においては言語ルール抽出の資料の意味で用いられる。翻訳仕様も用語集もコーパスとしての翻訳メモリから抽出できる。これを法律にたとえると翻訳仕様が成文法なら翻訳メモリ支給による指示は判例法に相当する。言語学の用語でいえば翻訳仕様がラングに相当し、翻訳メモリがパロールに相当する。

従来は翻訳品質に関する発注元の意図をベンダーや翻訳者に伝達する「メディア」として翻訳仕様と用語集しか存在しなかったが、現在はこれに翻訳メモリが加わった。もちろんコーパスが辞書の代用にならないように、翻訳メモリを支給すれば翻訳仕様と用語集が常に不要になるわけではない。だが、翻訳メモリをコーパスとして活用することが、翻訳仕様ならびに用語集の最小化に大きな効用があることにここでは注目したい。

裏返して言うと、翻訳仕様と翻訳メモリがともに支給されるようになった現在、翻訳仕様に準拠しない旧訳が翻訳メモリ内に残っていると不具合と見なされる。翻訳仕様・用語集と翻訳メモリの両者を支給するのであれば、両者間に矛盾がないようにする必要があり、それを実現するには(1)翻訳仕様と用語集の最小化(最大化ではない)と(2)翻訳メモリの翻訳仕様および用語集への準拠性の確認を繰り返して続ける必要がある。

ボーナスマッチの発見

以上に述べたほかにも、たとえば新規翻訳では翻訳メモリをいかに上手にあてるかによって新規翻訳ワード数が大きく変化する場合がある。よくあるのは多くの製品群をかかえる大手の発注元が複数の製品ラインを何年も継続して翻訳しているとき、数年前の別製品の翻訳メモリが思いもよらず高いマッチ率を示すことがある。このようなボーナス的な高マッチメモリの発見は、過去の翻訳メモリを体系だてて管理していない限りみつけようがない。

翻訳メモリを社内で管理している発注元の場合はそのようなボーナスマッチを見逃すことはないが、翻訳メモリを自ら管理していない発注元の場合は、ベンダーが気付いているボーナスマッチを見逃す可能性がある。

翻訳メモリの「資産活用」へ

ここまでに述べてきた翻訳メモリのいくつかの利用方法に共通するのは、翻訳メモリを「資産」としてとらえるという視点である。翻訳メモリならびに用語集を資産としてとらえる見方は、発注元の中でもすでに十分その重要性を理解して翻訳資産管理に取り組んでいる企業もあるし、一部のGMS製品などでも提唱されている。

ローカリゼーションにおいて従来は「文書」がプロセスの中心であり、翻訳メモリは文書のリサイクルにおける副産物のような取り扱いをうけてきた。だが、各発注元において翻訳メモリの蓄積が充実してきた現在、むしろこの翻訳メモリ(+用語集)を「翻訳資産」としてローカリゼーション工程の中心に据え、各バージョンの文書をフロー的なもの、トランザクショナルなもの、として位置付ける見方のほうがローカリゼーション工程全体の生産性を高めるかもしれない。

翻訳メモリの位置付けを「文書の副産物」から「翻訳資産」へ変更するのにともない、「メモリの内容は原文と一致していなければならない」という従来の<呪縛>から解放された翻訳メモリは、それ単独での編集が可能になる。

従来の翻訳メモリでは原文と一致させなければならないとの考え方が主流であり、同一の翻訳データが文書と翻訳メモリに重複して存在するために文書管理の負担が増える問題があり、両者の一致を維持する目的でどちらか一方を変更した場合は他方にも同じ変更を反映させるという神経を使う作業が生じた。

だが、翻訳資産という考え方では、翻訳メモリは原文を離れて独自に「進化」してもよい。管理対象は翻訳メモリだけとなり、リリースが終わった文書のほうはすでに管理対象外であるから、二重管理の問題は消滅する。

資産化した翻訳メモリのメンテナンス

いったんメモリに登録された翻訳は長く保存されて反復利用されるため、品質の悪い翻訳がメモリに混入した場合は将来の文書がその悪影響を繰り返し被る、などの問題が生じやすい。この問題に対しては、翻訳メモリの「資産価値をあげる」という観点から、積極的な改善に取り組むことが有効である。

用語の置換など、翻訳メモリの品質改善のうち、ある程度の部分はかなり機械的に処理できる。置換で対応しようのない下手な翻訳による汚染がみつかった場合、一般的に汚染の原因となる翻訳者を特定してその翻訳者が訳した翻訳ユニット全体を見直す必要があるから、そのときは該当する翻訳者の訳した箇所をあつめた翻訳メモリのサブセットを作成してそこだけリライトすればよい(それが可能になるには、翻訳メモリは担当翻訳者名を独立したフィールドとして持つ必要がある)。

あわせて平常から翻訳メモリの内容に目を通して品質を継続的に改善補修していく。翻訳メモリは漬物の糠床(ぬかどこ)のようなものであり、メンテナンスされない翻訳メモリはだんだん腐っていく傾向を本質的に持つ。それを防ぐにはメンテナンスの継続が必要になる。

求められる発注元のイニシアティブ

このような翻訳メモリの翻訳資産化と、それにともなう翻訳仕様・用語集の最小化を実際の業務で導入するにあたっては、発注元がイニシアティブをとらないと事態は前進しないであろう。ベンダーや翻訳者がいくら改善提案をだしても発注元がその気にならない限り改善は生じないが、発注元が積極的に行動を起こせば下請けはついてくる。発注元がイニシアティブをとり、場合によってはベンダーをコンサルタントとして使いながら推進していくことになるだろう。


[参考文献]
Mehran Sahami, "Global Google: Making Information Universally Accessible"アジア太平洋機械翻訳協会講演会(2005年6月14日)
Arle Lommel, Rebecca Ray, ”LISA 2004 Translation Memory Survey”, LISA
竹田青嗣『現象学は<思考の原理>である』第Ⅲ章「言語の現象学」ちくま新書、2004