Version 3.0

第4回コンペティションの早押し解答タスク向けに作成されたデータです。これらのデータは、同じ作者によって同じ時期に作成されたクイズ問題の集合からランダムサンプルされたものであるため、出題の傾向はほぼ同じです。

開発用データ(500問)

リーダーボード用データ(500問)

最終評価用データ(500問)

(非公開)

データ仕様

データセットは JSON Lines フォーマットで提供しています。1行が1つのクイズ問題の1つの時点(問題文が途中までの状態)に対応しており、以下の要素を含みます。

以下にデータ例を示します。

{"qid": "AIO04-0001", "position": 1, "question": "1"}

{"qid": "AIO04-0001", "position": 2, "question": "19"}

{"qid": "AIO04-0001", "position": 3, "question": "194"}

...

{"qid": "AIO04-0001", "position": 44, "question": "1945年、ラテンアメリカの文学者として初めてノーベル文学賞を受賞した、チリの詩人は誰?"}

{"qid": "AIO04-0002", "position": 1, "question": "和"}

{"qid": "AIO04-0002", "position": 2, "question": "和歌"}

...

Version 2.0

第2回・第3回コンペティション向けに作成されたデータセットです.

学習用データ

Version 1.0 で使用したクイズ問題データ(学習用,開発用,評価用,および,一部未使用データ)を,第2回・第3回コンペティション向けに再構築したものです.


開発用データ

Version 2.0 用に新たに作成した2,000問以上のクイズ問題データの中から1,000問をランダムにサンプルしたものです.残りのデータからサンプルした1,000問が,リーダーボードでの評価用データとなります.(したがって,出題の傾向は開発用データと評価用データでほぼ同じです.)​なお,開発用データを,リーダーボードに投稿するシステムの学習用データとして用いても良いものとします.


Version 2.0 補足情報


分割データ

上記「学習用データ (22,335問)」を第1回コンペティションで用いた役割ごとに分割したものです(以下4つを連結すると上記学習データと一致します).学習用,開発用,評価用の3つのデータセットを用いたモデル開発を実施したいときなどに,下記データを利用していただければと思います.

データ仕様

データセットは JSON Lines フォーマットで提供しています.1行が1つのクイズ問題に対応しており,以下の要素を含みます.

データ例

以下にクイズ問題のデータ例を示します(実際のデータでは1つの問題が1行に記述されています).

{

   "qid": "QA20QBIK-0002",

   "competition": "第1回AI王",

   "timestamp": "2020/01/27",

   "section": "開発データ問題 (dev1)",

   "number": "2",

   "original_question": "童謡『たなばたさま』の歌詞で、「さらさら」と歌われる植物は何の葉?",

   "original_answer": "ササ",

   "original_additional_info": "",

   "question": "童謡『たなばたさま』の歌詞で、「さらさら」と歌われる植物は何の葉?",

   "answers" :["ササ"]

}

Version 1.0

第1回コンペティション向けに作成された,クイズ問題に20択の解答選択肢を付与したデータセットです.

データ仕様等の詳細は JAQKET [鈴木ら 2020] のページをご覧ください.
開発用セットをこちらで2つに分解してある意図としては,片方を開発中の擬似的なテストセットとして用いただくことを想定しています.

ライセンス・謝辞 

本コンペティションで利用するクイズ問題は,下記の通り提供を受けています.記して感謝いたします.