Fact Validation
概要
文書集合とt2が与えられます。文書集合がt2を含意するかどうか判定します。
このサブタスクでは、t1は与えられません。
文書集合の中から、t1に該当するテキストを独自に検索します。
その検索結果に基づいて、文書集合がt2を含意するかしないかを判定します。
例を用いたタスクの説明
準備中
配布データ
各言語に対して、次の表に示すファイルを提供します。
赤字は、RITE-VALで新たに提供するデータです。黒字は、RITE-1もしくはRITE-2で提供したものと同じデータです。
NTCIR-11の「ワークショップ参加者用データセット一覧」のページも参照ください。
データ形式
NTCIR-10 RITE-2 Exam Searchサブタスクと同じデータ形式を利用します。
<?xml version="1.0" encoding="UTF-8"?>
<dataset>
<pair id="1" label="Y">
<t2>パルテノン神殿の建つ丘は,アクロポリスと呼ばれている。</t2>
</pair>
<pair id="2" label="N">
<t2>パルテノン神殿は,ヘレニズム文化の影響下で建設された。</t2>
</pair>
:
</dataset>
System Validationのデータとは異なり、<pair>要素には、<t1>要素はありません。
訓練用データ内の<pair>要素には、正解ラベルを保有する@label属性とその値がありますが、評価用データ内の<pair>要素には、この属性はありません。
評価方法
二値分類 (for EN and JA)
各t2に対して、"Y"か"N"を出力する二値分類問題です。
- 文書集合がt2を含意すると推論できる場合、"Y"を出力する
- そうでない場合、"N"を出力する
"Y"と"N"のMacro F1により、システムを評価します。評価は、公開リソースに含まれる評価ツールを用いて行います。
以下の形式に従うファイルを提出してください。
"t2 ID" [SPACE] "Label" [SPACE] "Confidence"
"t2 ID" [SPACE] "Label" [SPACE] "Confidence"
"t2 ID" [SPACE] "Label" [SPACE] "Confidence"
:
提出ファイルの例:
1 Y 0.852
2 N 0.994
3 Y 0.789
4 Y 1.000
:
三値分類 (for CS and CT)
各t2に対して、"E", "C", "U"のいずれかを出力する三値分類問題です。
- 文書集合がt2を含意すると推論できる場合、"E"を出力する
- 文書集合とt2が矛盾すると推論できる場合、"C"を出力する
- 上記以外の場合(文書集合の中に含意の証拠も矛盾の証拠も見つけられなかった場合)、"U"を出力する
上記3つのラベルのMacro F1により、システムを評価します。評価は、公開リソースに含まれる評価ツールを用いて行います。
以下の形式に従うファイルを提出してください。
"t2 ID" [SPACE] "Label" [SPACE] "Confidence"
"t2 ID" [SPACE] "Label" [SPACE] "Confidence"
"t2 ID" [SPACE] "Label" [SPACE] "Confidence"
:
提出ファイルの例:
1 E 0.852
2 C 0.994
3 E 0.789
4 E 1.000
:
t1テキストの検索 (任意タスク for EN and JA)
上記の二値分類タスクを解く過程で検索されたt1を列挙する問題です。
各t2に対して、最大5つまで文書IDを列挙します。
システムが"Y"を出力したt2のリストに対して、人手でその文書IDのテキストが妥当かどうか判断します。
最大5つまでの文書の中に妥当なテキストが存在するかどうかを、適合率と再現率により評価します。
参加者がこの検索結果を提出するかどうかは、任意です。
以下の形式に従うファイルを提出してください。
"t2 ID" [SPACE] "Document ID" [SPACE] "Document ID" [SPACE] … "Document ID"
"t2 ID" [SPACE] "Document ID" [SPACE] "Document ID" [SPACE] … "Document ID"
"t2 ID" [SPACE] "Document ID" [SPACE] "Document ID" [SPACE] … "Document ID"
:
提出ファイルの例:
1 45 224 334 1040
2 3 1482
3 30 781 315 709 33
4 11 33 1204 1132 553
:
評価ツール
- rite2eval version 3.0 (Java)