WMT 2024 General Translation Task (English-to-Japanese) のデータを利用して翻訳の自動評価手法の頑健性(脆弱性)を問うことを目的とした Shared Task です。
評価はWMTのテストセットを利用して行いますので、テストセットの英文に対する(自動評価にとってそう見える、という意味での)日本語への翻訳結果を提出していただきます。
Metrics タスクのデータを見れば参照訳が提供されていますのでそれをそのまま提出すれば高い評価値は得られますが、それは本 Shared Task の趣旨と合致しないことはご理解いただけるかと思います。
真面目に機械翻訳システムを作るもよし、LLMのプロンプト職人になるもよし、自力で訳してみるもよし(?)、特に手段は問いません。
なんでこんな方法で高い自動評価値が出てしまうんだろう...
という気づきを得ることがこの Shared Task の目的です。皆様のご参加をお待ちしています。
※ Shared Taskに共通する事項については Shared Task をご覧ください ※
WMT 2024 General Translation Task (English-to-Japanese) のテストセット(の一部)を利用します。
タスク参加者は以下の要領で日本語への翻訳結果を作成してください。
WMT 2024 Metric Taskのページ https://www2.statmt.org/wmt24/metrics-task.html に記載されているデータダウンロードのリンク https://drive.google.com/file/d/1ORGIsS_QKCBvrLyaoBrpx0PRKbwoxXSV/view?usp=drive_link から、データ一式をダウンロードする
zipファイルを展開し、 wmt24-metrics-inputs/metrics_inputs/txt/generaltest2024/sources/generaltest2024.en-ja.src.en を原言語ファイルとして利用する(998行)
この原言語ファイルに対応する翻訳結果(日本語)のテキストファイルを作成し、提出期限までにオーガナイザに送付する(詳細は Shared Task をご覧ください)
※ なお、同じzipファイルの中に参照訳ファイル wmt24-metrics-inputs/metrics_inputs/txt/generaltest2024/references/generaltest2024.en-ja.ref.refA.ja が含まれていますので、ご自身で事前検証の上結果提出いただくことも可能です
なお、複数の評価指標が用いられることを考慮し、1チームからの結果提出数は最大10とします。
結果が区別できるよう、ファイル名は ${チーム名}.${システムID}.ja としてください。
本 Shared Task における評価指標には以下を利用し、ワークショップ開催時に結果を公開します。
表層ベース評価
BLEU (sacrebleuを使用します) https://github.com/mjpost/sacrebleu
chrF (sacrebleuを使用します) https://github.com/mjpost/sacrebleu
埋め込みベース評価
BERTScore https://github.com/Tiiiger/bert_score
bert-score --lang ja -m "nlp-waseda/roberta-large-japanese-seq512-with-auto-jumanpp" -l 12 -r REFERENCE -c HYPOTHESIS
※使用モデルの適切性に問題があったため、 "microsoft/deberta-xlarge-mnli" から変更しました。 (2025-01-18)
※モデルの使用方法に問題があったため、"nlp-waseda/roberta-large-japanese-seq512" から再度変更しました。利用には juman++のインストール(ソースコードから)、rhoknpのインストールが必要です(pip等から)。なお、トークナイザが変更されたため、これまで記載していたソースコードの修正は不要になりました。 (2025-01-21)
COMET https://github.com/Unbabel/COMET
comet-score -s SOURCE -r REFERENCE -t HYPOTHESIS --model Unbabel/XCOMET-XL
comet-score -s SOURCE -r REFERENCE -t HYPOTHESIS (併用)
LLMベース
GEMBA https://github.com/MicrosoftTranslator/GEMBA
python GEMBA/main.py --source SOURCE --hypothesis HYPOTHESIS --source_lang=English --target_lang=Japanese --method="GEMBA-MQM" --model="gpt-4o"
GEMBAの推奨は GPT-4 ですが、事情はお察しください...
また、これらに追加して、オーガナイザで秘密の指標を用意して評価を行います。この指標の詳細と評価結果はワークショップ開催時に公開します。