BEA 2019 Shared Task on Grammatical Error Correction(English) のデータを利用して文法誤り訂正(GEC)の自動評価手法の頑健性(脆弱性)を問うことを目的したShared Taskです。
評価はBEA開発セット(※1)を利用して行いますので、開発セットの英文に対する(自動評価にとってそう見える、という意味での)訂正結果を提出していただきます。
真面目に誤り訂正システムを作るもよし、LLMのプロンプト職人になるもよし、自力で訳してみるもよし(?)、特に手段は問いません。
なんでこんな方法で高い自動評価値が出てしまうんだろう...
という気づきを得ることがこの Shared Task の目的です。皆様のご参加をお待ちしています。
※1: BEA2019の評価セットは参照訂正文が非公開のため既存研究の慣習に倣い、開発セットを評価セットとみなして利用します。
※ Shared Taskに共通する事項については Shared Task をご覧ください ※
BEA 2019 Shared Task on Grammatical Error Correction(English)の開発セットを評価セットとして利用します。
タスク参加者は以下の要領で訂正結果を作成してください。
BEA 2019 Shared Taskのページ に https://www.cl.cam.ac.uk/research/nl/bea2019st/#data 記載されている「W&I+LOCNESS v2.1」をダウンロードする
zipファイルを展開し、wi+locness/m2/ABCN.dev.gold.bea19.m2 を開発セット(本Shared Taskの評価セット) として利用する(4384 sentences)
※ m2フォーマットについては、BEA 2019 Shared Taskのページの「M2 Format」をご確認ください
この入力ファイルに対応する訂正結果のテキストファイルを作成し、提出期限までにオーガナイザに送付する(詳細は Shared Task をご覧ください)
※ ABCN.dev.gold.bea19.m2 には訂正アノテーションが付与されているため、ご自身で事前検証の上、参照訂正結果を提出いただくことも可能です。
なお、複数の評価指標が用いられることを考慮し、1チームからの結果提出数は最大10とします(2/19更新)。
結果が区別できるよう、ファイル名は ${チーム名}.${システムID}.tgt としてください。
本 Shared Task における評価指標には以下を利用し、ワークショップ開催時に結果を公開します。
なお、各評価指標(GPT-4-Sを除く)は便宜上、文法誤り訂正の評価尺度が同一インターフェース上で使用可能なライブラリ(NAIST五藤さん作)であるgec-metrics の実装を使用することを想定しています (2/19更新)。
表層ベース評価
ERRANT [Felice+, 2016] [Bryant+, 2017]
https://github.com/chrisjbryant/errant
GLEU [Napoles+, 2015] [Napoles+, 2016](GLEU+を使います)
https://github.com/cnap/gec-ranking/tree/master
埋め込みベース評価
PT-ERRANT [Gong+, 2022]
https://github.com/pygongnlp/PT-M2
IMPARA [Maeda+, 2022]
https://github.com/Silviase/IMPARA
LLMベース評価
GPT-4-S [Kobayashi+, 2024]
※ 使用するPromptは論文Figure3に記載のものをベースに今回の設定に適応させたこちらのPromptを使用 (2/18更新)
また、各評価指標(GPT-4-Sを除く)の設定値はgec-metrics におけるデフォルト値に準拠することとします。
gec-metricsをインストール後、CLIでgecmetrics-gen-configを実行すると下記のようにデフォルトの設定が確認できます(以下、yaml形式)。
impara:
model_qe: gotutiyan/IMPARA-QE
model_se: bert-base-cased
max_length: 128
threshold: 0.9
no_cuda: False
batch_size: 32
gleu:
iter: 500
n: 4
unit: word
errant:
beta: 0.5
language: en
bertscore:
model_type: bert-base-uncased
num_layers: null
batch_size: 64
nthreads: 4
all_layers: False
idf: False
idf_sents: null
lang: en
rescale_with_baseline: True
baseline_path: null
use_fast_tokenizer: False
score_type: f
pterrant:
beta: 0.5
language: en
weight_model_name: bertscore
weight_model_config: null
さらに、これらに追加して、オーガナイザで秘密の指標を用意して評価を行います。この指標の詳細と評価結果はワークショップ開催時に公開します。