AI王公式配布データセット

Version 3.0

Version 2.0

Version 1.0

ライセンス・謝辞

Version 3.0

第4回コンペティションの早押し解答タスク向けに作成されたデータです。これらのデータは、同じ作者によって同じ時期に作成されたクイズ問題の集合からランダムサンプルされたものであるため、出題の傾向はほぼ同じです。

開発用データ（500問）

開発用データ問題のみ
開発用データ問題と正解（Version 2.0 形式）

リーダーボード用データ（500問）

リーダーボード用データ問題のみ

最終評価用データ（500問）

（非公開）

データ仕様

データセットは JSON Lines フォーマットで提供しています。1行が1つのクイズ問題の1つの時点（問題文が途中までの状態）に対応しており、以下の要素を含みます。

qid: 問題ID
position: クイズ問題の何文字目までの問題文が与えられているか
question: クイズ問題の position の位置までの部分文字列

以下にデータ例を示します。

{"qid": "AIO04-0001", "position": 1, "question": "1"}

{"qid": "AIO04-0001", "position": 2, "question": "19"}

{"qid": "AIO04-0001", "position": 3, "question": "194"}

...

{"qid": "AIO04-0001", "position": 44, "question": "1945年、ラテンアメリカの文学者として初めてノーベル文学賞を受賞した、チリの詩人は誰?"}

{"qid": "AIO04-0002", "position": 1, "question": "和"}

{"qid": "AIO04-0002", "position": 2, "question": "和歌"}

...

Version 2.0

第2回・第3回コンペティション向けに作成されたデータセットです．

学習用データ

Version 1.0 で使用したクイズ問題データ（学習用，開発用，評価用，および，一部未使用データ）を，第2回・第3回コンペティション向けに再構築したものです．

学習用データ (22,335問)

開発用データ

Version 2.0 用に新たに作成した2,000問以上のクイズ問題データの中から1,000問をランダムにサンプルしたものです．残りのデータからサンプルした1,000問が，リーダーボードでの評価用データとなります．（したがって，出題の傾向は開発用データと評価用データでほぼ同じです．）なお，開発用データを，リーダーボードに投稿するシステムの学習用データとして用いても良いものとします．

開発用データ (1,000問)
開発用データ動作確認用 ( qid と question のみを要素に持つもの)

Version 2.0 補足情報

分割データ

上記「学習用データ (22,335問)」を第1回コンペティションで用いた役割ごとに分割したものです（以下4つを連結すると上記学習データと一致します）．学習用，開発用，評価用の3つのデータセットを用いたモデル開発を実施したいときなどに，下記データを利用していただければと思います．

第1回コンペティション学習用データ (17,735問)クイズ大会「abc/EQIDEN」の第1回（2003年）から第12回大会（2014年）で使用されたクイズ問題から成るデータです．第1回コンペティションの学習用データ (train_questions.json) では，正解エンティティの付与ができない一部のクイズ問題がデータから除外されていましたが，本データはオリジナルの全てのクイズ問題を含んでいます．
第1回コンペティション開発用データ (1,992問)「AI王」向けにクイズ作家に作問を依頼したクイズ問題から成るデータです．Version 1.0 で開発用データとして配布した dev1_questions.json と dev2_questions.json を連結したデータです．
第1回コンペティション評価用データ (2,000問)「AI王」向けにクイズ作家に作問を依頼したクイズ問題から成るデータです．第1回コンペティションのリーダーボード評価データとライブコンペティション評価データを連結したデータです．
第1回コンペティション未使用データ (608問)「AI王」向けにクイズ作家に作問を依頼したクイズ問題から成るデータです．第1回の開発用・評価用データと同時期に作成されたものの，いくつかの理由により未使用となったデータです．

データ仕様

データセットは JSON Lines フォーマットで提供しています．1行が1つのクイズ問題に対応しており，以下の要素を含みます．

問題文および正解の正規化として，Unicode 正規化 (NFKC)，文中の振り仮名や注釈の除去を行っています．
クイズ問題管理の都合上，qid は Version 1.0 のデータとの互換性がなくなっています．あらかじめご了承ください．
answers のリストに含まれる正解は，現時点で全ての問題で1つのみですが，評価データでは別解が追加で含まれる可能性があります（その場合，リストに含まれる正解のどれか1つに解答が合致すれば正解とみなされます）．

データ例

以下にクイズ問題のデータ例を示します（実際のデータでは1つの問題が1行に記述されています）．

{

"qid": "QA20QBIK-0002",

"competition": "第1回AI王",

"timestamp": "2020/01/27",

"section": "開発データ問題 (dev1)",

"number": "2",

"original_question": "童謡『たなばたさま』の歌詞で、「さらさら」と歌われる植物は何の葉？",

"original_answer": "ササ",

"original_additional_info": "",

"question": "童謡『たなばたさま』の歌詞で、「さらさら」と歌われる植物は何の葉?",

"answers" :["ササ"]

}

Version 1.0

第1回コンペティション向けに作成された，クイズ問題に20択の解答選択肢を付与したデータセットです．

学習用データ (13,061問, 2020/02/14 公開):
- train_questions.json (10.9MB)
開発用データ1 (995問, 2020/02/14 公開):
- dev1_questions.json (834KB)
開発用データ2 (997問, 2020/02/14 公開):
- dev2_questions.json (847KB)
正解エンティティ候補リスト (2020/04/21 公開):
- labeled_entities.txt (21MB)
- 訓練データ・開発データ・評価データ（未公開）のすべての問題において，この候補リスト（約92万エンティティ）のいずれかが正解になります．

データ仕様等の詳細は JAQKET [鈴木ら 2020] のページをご覧ください．
開発用セットをこちらで2つに分解してある意図としては，片方を開発中の擬似的なテストセットとして用いただくことを想定しています．

ライセンス・謝辞

本コンペティションで利用するクイズ問題は，下記の通り提供を受けています．記して感謝いたします．

「第1回コンペティション学習用データ」のクイズ問題，および「第2回コンペティション学習用データ」で該当するクイズ問題の著作権は abc/EQIDEN 実行委員会に帰属します．これらのクイズ問題は，東北大学において非商用の研究目的での再配布許諾を得ています．
「第1回コンペティション開発用データ」「第1回コンペティション評価用データ」「第1回コンペティション未使用データ」のクイズ問題，および「第2回コンペティション学習用データ」で該当するクイズ問題は，株式会社キュービックおよびクイズ法人カプリティオへ依頼して作成しました．これらのクイズ問題は，クリエイティブ・コモンズ表示-継承 4.0 国際ライセンスのもとに提供されています．

Google Sites

Report abuse

AI王 公式配布データセット

Version 3.0

開発用データ（500問）

リーダーボード用データ（500問）

最終評価用データ（500問）

データ仕様

Version 2.0

学習用データ

開発用データ

Version 2.0 補足情報

分割データ

データ仕様

データ例

Version 1.0

ライセンス・謝辞

AI王公式配布データセット