System Validation
赤字は、RITE-VALで新たに提供するデータです。黒字は、RITE-1もしくはRITE-2で提供したものと同じデータです。
NTCIR-11の「ワークショップ参加者用データセット一覧」のページも参照ください。
データ形式
NTCIR-10 RITE-2 BC/MCサブタスクと同じデータ形式を利用します。
<?xml version="1.0" encoding="UTF-8"?>
<dataset type="bc">
<pair id="1" label="Y">
<t1>プロメーテウスは人類に火を渡し、張り付けにされた。</t1>
<t2>プロメテウスは人類に火を齎して罰を受けた。</t2>
</pair>
<pair id="2" label="Y">
<t1>伊坂幸太郎は直木賞候補になった2003年の『重力ピエロ』で一般読者に広く認知されるようになった。</t1>
<t2>『重力ピエロ』は伊坂幸太郎による小説で直木賞候補作品だった。</t2>
</pair>
<pair id="3" label="N">
<t1>中央アジアで作られる馬乳酒は、少量のアルコールを含んだ飲むヨーグルトといえる。</t1>
<t2>飲むヨーグルトは、酒の一種だ。</t2>
</pair>
:
</dataset>
訓練用データ内の<pair>要素には、正解ラベルを保有する@label属性とその値がありますが、評価用データ内の<pair>要素には、この属性はありません。
JAの評価用データ作成に当たり、次の2つのt2リストを、評価用データのt2リストとして利用しました。
- "RITE2_JA_dev_examsearch.xml" (FV-dev)のt2リスト。
- "RITE-VAL_JA_test_factval.xml" (FV-test)のt2リスト。
上記1.のt2のidが"N"の場合、評価用データでは、そのt2を利用した文対に"dev-N-xx"というidを付与しています。xxは枝番です。
2.のt2のidが"N"の場合、評価用データでは、そのt2を利用した文対に"test-N-xx"というidを付与しています。
評価方法
二値分類 (for CS, CT and JA)
t1とt2のテキスト対に対して、"Y"か"N"を出力する二値分類問題です。
- t1がt2を含意すると推論できる場合、"Y"を出力する
- そうでない場合、"N"を出力する
"Y"と"N"のMacro F1により、システムを評価します。評価は、公開リソースに含まれる評価ツールを用いて行います。
以下の形式に従うファイルを提出してください。
"Text Pair ID" [SPACE] "Label" [SPACE] "Confidence"
"Text Pair ID" [SPACE] "Label" [SPACE] "Confidence"
"Text Pair ID" [SPACE] "Label" [SPACE] "Confidence"
:
提出ファイルの例:
1 Y 0.852
2 N 0.994
3 Y 0.789
4 Y 1.000
:
四値分類 (for CS and CT)
t1とt2のテキスト対に対して、 "F", "B", "C", "I"のいずれかを出力する四値分類問題です。
- t1がt2を含意し、かつ、t2がt1を含意すると推論できる場合、"B"を出力する
- t1がt2を含意するが、t2がt1を含意しないと推論できる場合、"F"を出力する
- t1とt2が矛盾すると推論できる場合、"C"を出力する
- 上のいずれにもあてはまらない場合、"I"を出力する
上記4つのラベルのMacro F1により、システムを評価します。評価は、公開リソースに含まれる評価ツールを用いて行います。
以下の形式に従うファイルを提出してください。
"Text Pair ID" [SPACE] "Label" [SPACE] "Confidence"
"Text Pair ID" [SPACE] "Label" [SPACE] "Confidence"
"Text Pair ID" [SPACE] "Label" [SPACE] "Confidence"
:
提出ファイルの例:
1 F 0.852
2 F 0.994
3 C 0.789
4 I 1.000
:
評価ツール
- rite2eval version 3.0 (Java)