System Validation

概要

t1とt2が与えられます。t1がt2を含意するかどうか判定します。

含意認識の判定に複数の言語現象が関係するテキスト対を提供します。

加えて、このテキスト対の集合の一部を利用して作成した、

1つの言語現象のみが含意認識の判定に関係するテキスト対も提供します。

例を用いたタスクの説明

準備中

言語現象カテゴリーについては、リンク先のページを参照してください。

配布データ

各言語に対して、次の表に示すファイルを提供します。

赤字は、RITE-VALで新たに提供するデータです。黒字は、RITE-1もしくはRITE-2で提供したものと同じデータです。

NTCIR-11の「ワークショップ参加者用データセット一覧」のページも参照ください。

データ形式

NTCIR-10 RITE-2 BC/MCサブタスクと同じデータ形式を利用します。

<?xml version="1.0" encoding="UTF-8"?>

<dataset type="bc">

<pair id="1" label="Y">

<t1>プロメーテウスは人類に火を渡し、張り付けにされた。</t1>

<t2>プロメテウスは人類に火を齎して罰を受けた。</t2>

</pair>

<pair id="2" label="Y">

<t1>伊坂幸太郎は直木賞候補になった2003年の『重力ピエロ』で一般読者に広く認知されるようになった。</t1>

<t2>『重力ピエロ』は伊坂幸太郎による小説で直木賞候補作品だった。</t2>

</pair>

<pair id="3" label="N">

<t1>中央アジアで作られる馬乳酒は、少量のアルコールを含んだ飲むヨーグルトといえる。</t1>

<t2>飲むヨーグルトは、酒の一種だ。</t2>

</pair>

:

</dataset>

訓練用データ内の<pair>要素には、正解ラベルを保有する@label属性とその値がありますが、評価用データ内の<pair>要素には、この属性はありません。

JAの評価用データ作成に当たり、次の2つのt2リストを、評価用データのt2リストとして利用しました。

  1. "RITE2_JA_dev_examsearch.xml" (FV-dev)のt2リスト。
  2. "RITE-VAL_JA_test_factval.xml" (FV-test)のt2リスト。

上記1.のt2のidが"N"の場合、評価用データでは、そのt2を利用した文対に"dev-N-xx"というidを付与しています。xxは枝番です。

2.のt2のidが"N"の場合、評価用データでは、そのt2を利用した文対に"test-N-xx"というidを付与しています。

評価方法

二値分類 (for CS, CT and JA)

t1とt2のテキスト対に対して、"Y"か"N"を出力する二値分類問題です。

  • t1がt2を含意すると推論できる場合、"Y"を出力する
  • そうでない場合、"N"を出力する

"Y"と"N"のMacro F1により、システムを評価します。評価は、公開リソースに含まれる評価ツールを用いて行います。

以下の形式に従うファイルを提出してください。

"Text Pair ID" [SPACE] "Label" [SPACE] "Confidence"

"Text Pair ID" [SPACE] "Label" [SPACE] "Confidence"

"Text Pair ID" [SPACE] "Label" [SPACE] "Confidence"

:

提出ファイルの例:

1 Y 0.852

2 N 0.994

3 Y 0.789

4 Y 1.000

:

四値分類 (for CS and CT)

t1とt2のテキスト対に対して、 "F", "B", "C", "I"のいずれかを出力する四値分類問題です。

  • t1がt2を含意し、かつ、t2がt1を含意すると推論できる場合、"B"を出力する
  • t1がt2を含意するが、t2がt1を含意しないと推論できる場合、"F"を出力する
  • t1とt2が矛盾すると推論できる場合、"C"を出力する
  • 上のいずれにもあてはまらない場合、"I"を出力する

上記4つのラベルのMacro F1により、システムを評価します。評価は、公開リソースに含まれる評価ツールを用いて行います。

以下の形式に従うファイルを提出してください。

"Text Pair ID" [SPACE] "Label" [SPACE] "Confidence"

"Text Pair ID" [SPACE] "Label" [SPACE] "Confidence"

"Text Pair ID" [SPACE] "Label" [SPACE] "Confidence"

:

提出ファイルの例:

1 F 0.852

2 F 0.994

3 C 0.789

4 I 1.000

:

評価ツール

    • rite2eval version 3.0 (Java)