AI王〜クイズAI日本一決定戦〜

第1回コンペティションでは，クイズ問題に対する解答は，与えられたエンティティリスト内の約92万項目のいずれかになるように問題を設計しました．また，初めから約92万項目の膨大な選択肢の中から正解項目を見つけ出すのは困難であると予想されたため，ヒントとして各問題に対して20個の候補項目を付与しました．つまり，20個の選択肢からの択一問題を解くという問題設定です．

それに対して，第2回コンペティションでは，選択肢を排除し，また，解答も第1回で用いたリストを用意せず，あらゆる解答がありえるという，より通常のクイズ大会に近い設定とします．つまり，問題として与えられるのはクイズの問題文のみです．その問題文から解答となる文字列を解答として返すシステムを構築してもらいます．

リーダーボードへの投稿

本コンペティションへの参加，すなわちリーダーボードへの投稿には， Slack ワークスペース AI王〜クイズAI日本一決定戦〜への参加が必要です．リーダーボードへのアクセス方法やアカウントの発行方法は，AI王 Slack ワークスペース内にて告知しております．

リーダーボードへの投稿は，質問応答システムの Docker イメージを Web サイトを通じてアップロードすることにより行います．具体的な方法についてはこちらのページをご覧ください．

2022/02/14: Docker イメージのサイズの要件について更新しました

リーダーボードへの投稿締切は 2022年3月7日 (月) 23:59 です．

なお，本コンペティションにおける提出物の扱いや権利関係については，以下の通りといたします．

投稿者本人の依頼または許可がない限り，Dockerイメージの内容（中身のコード）を運営は確認しない
投稿者本人の依頼または許可がない限り，本コンペティションの精度評価以外に利用しない
投稿者本人の依頼または許可がない限り，本評価システムから外部の記憶媒体にコピーしない
投稿者本人の依頼または許可がない限り，本コンペティション終了後一定期間の後に全て削除する

評価指標

テストデータに対する正解率を評価指標とします．ただし，別解や正解の表記揺れが存在する可能性があるため，事前に用意された文字列との完全一致率による評価（自動評価）と，人間の採点者による別解や表記揺れを含めた評価（人手評価）の2種類の評価を用います．
- 自動評価は，リーダーボードの速報値として利用します．あくまで一次評価という扱いです．
- 人手評価は，コンペティションの最終投稿に対して最終評価として実施します．

利用可能データに関するルール

利用可能なデータは一般公開されているもののみとします．研究促進が目的であるため，一部のユーザしか使えないデータなどを使ったシステムは評価対象外とします．
- ただし，独自に作成したデータであっても，無償で一般公開すれば利用可能となります．他の組織でも結果を再現できるか，というのが一つの目安となります．
本コンペティションのサイトが提供するデータのうち開発データ用となっているものも学習に利用してもよいこととします．データの区分はあくまでも論文を書く際などの目安の区切りのため，コンペティションにおいて利用することを妨げません．
- JAQKETの訓練データ・開発データ
- 参加者が独自にダウンロードしたWikipediaのデータ
解答時に外部のリソース（インターネット検索など）を利用するのは禁止です．

利用可能計算機リソースに関するルール

基本的に単一の計算機内のリソースで動くことを想定します（どこまでを単一計算機と思うかは常識的な範囲で考えてください）．
Google Cloud Platform のインタンス上での評価を想定します．そのため，そのインスタンス上で実行時間が6時間 3時間 (2022/2/16 修正) を超過する場合は「実行不能」と判断します．

No private sharing outside team ルール

コンペティション期間中はチーム外の他の参加者と、公式 Slack ワークスペースなどの場以外のプライベートな場において、コードやデータなどを共有することや、戦略などについて具体的な議論を行うことを禁止します。
- チーム間の情報格差による公平性を保つための措置です．
複数チームによるチームマージは可能です。チーム外の他の参加者とのコード共有や議論などを行う場合は、チームマージした上で行って下さい。
- マージする際は、複数チームから一つのチームを選択していただきます。
- 過去に提出された結果は一つのチームにマージすることができません。選択されなかったチームの提出結果は、ユーザがいなくなっても記録として残り続けることとなります。

データセット

第2回コンペティションでは、AI王公式配布データセット Version 2.0 を使用します．

ベースラインシステム

ベースラインシステムとして，近年の深層ニューラルネットワーク (DNN) に基づく質問応答 (QA) システムで最も用いられている Retrieve and Read 方式（または，Retriever-Reader 方式）のシステムを提供します．より具体的には，DPR [Karpukhin+, EMNLP 2020] をベースに本コンペティションで扱う日本語クイズ問題で利用できるように改修したものになります．本ベースラインシステムを理解することで，現在のモダン QA システムの理解の一助となることを期待して，このシステムをベースラインとして提供することにしました．

ベースライン AIO2_DPR_baseline

参考文献: Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih. Dense Passage Retrieval for Open-Domain Question Answering. In EMNLP, pp. 6769–6781, 2020. [Paper] [GitHub]

また，実行委員が作成した以下のモデルもベースラインとして公開しています．モデルや推論スクリプトの実装の参考にお役立てください．

aio2-tfidf-baseline
- 与えられる質問に対して，訓練データ内の質問との類似度を TF-IDF により計算し，最も類似度の高い質問の正解をそのまま解答として出力するベースラインです．
aio2-soseki-baseline NEW!
- DPR を拡張し，文書ベクトルのハッシュ化を行うことにより，ベクトルのサイズ削減を行う手法 BPR [Yamada+, ACL 2021] を AI 王向けに実装したベースラインです．
- 参考文献: Ikuya Yamada, Akari Asai, Hannaneh Hajishirzi. Efficient Passage Retrieval with Hashing for Open-domain Question Answering. In ACL, pp. 979–986, 2021. [Paper] [GitHub]

結果報告 NEW!

本コンペティションへのたくさんのご参加ありがとうございました！
おかげさまで，招待講演やシステム報告と，大いに盛り上がることができました．
参加チーム数は8（+ベースライン2）でした．

以下に，第2回コンペティションで優秀な成績を収めた上位3チームの結果を掲載します．
入賞おめでとうございます！

実行委員

第2回コンペティション

実行委員長

- 鈴木潤（東北大学/理化学研究所）

実行委員

- 加藤拓真（東北大学）
- 鈴木正敏（株式会社Studio Ousia/東北大学）
- ⻄田京介（NTT人間情報研究所）
- 松田耕史（理化学研究所/東北大学）
- 宮脇峻平（東北大学）
- 赤間怜奈（東北大学/理化学研究所）
- 田中涼太（NTT人間情報研究所）
- 石月由紀子（東北大学）
- 有山知希（東北大学）

顧問

- 乾健太郎（東北大学/理化学研究所）
- 関根聡（理化学研究所）

問い合わせ先

お問い合わせは次のGoogle Group: jaqket at googlegroups.com までお気軽にお寄せください．
リーダーボードへの投稿には Slack ワークスペース: AI王〜クイズAI日本一決定戦〜への参加が必要です．
Twitter アカウントでも情報を発信しています: @AioJaqket

ライセンス・謝辞

本コンペティションで利用するクイズ問題は，下記の通り提供を受けています．記して感謝いたします．

「第1回コンペティション学習用データ」のクイズ問題，および「第2回コンペティション学習用データ」で該当するクイズ問題の著作権は abc/EQIDEN 実行委員会に帰属します．これらのクイズ問題は，東北大学において非商用の研究目的での再配布許諾を得ています．
「第1回コンペティション開発用データ」「第1回コンペティション評価用データ」「第1回コンペティション未使用データ」のクイズ問題，および「第2回コンペティション学習用データ」で該当するクイズ問題は，株式会社キュービックおよびクイズ法人カプリティオへ依頼して作成しました．これらのクイズ問題は，クリエイティブ・コモンズ表示-継承 4.0 国際ライセンスのもとに提供されています．

Reference

[鈴木ら 2020] 鈴木正敏, 鈴木潤, 松田耕史, ⻄田京介, 井之上直也. “JAQKET:クイズを題材にした日本語QAデータセットの構築”. 言語処理学会第26回年次大会（NLP2020）発表論文集. [paper]
[Karpukhin et al. 2020] Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih. In EMNLP, pages 6769–6781, 2020. [paper]
[Devlin et al. 2019] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. BERT: Pre-training of Deep Bidirectional Trans-formers for Language Understanding. In NAACL, volume 1, pages 4171–4186, 2019. [paper]

Google Sites

Report abuse

AI王 〜クイズAI日本一決定戦〜

概要

更新履歴

重要日程

ルール

リーダーボードへの投稿

評価指標

利用可能データに関するルール

利用可能計算機リソースに関するルール

No private sharing outside team ルール

データセット

ベースラインシステム

結果報告 NEW!

実行委員

問い合わせ先

ライセンス・謝辞

Reference

AI王〜クイズAI日本一決定戦〜