概要
日本の(日本語を対象とした)質問応答研究を促進させることを目的としています.クイズ問題を題材とした質問応答データセットを用いて,みんなで人工知能クイズ王(=「AI王」)を開発しましょう!
本ページは「第2回コンペティション(2021年10月〜2022年3月実施予定)」の情報を掲載しています.過去のコンペティションについてはこちらを参照ください.更新履歴
2022/04/27: 最終報告会の発表資料・講演資料を公開しました NEW!
2022/03/11: コンペティション結果を掲載しました NEW!
2022/02/14: リーダーボードへの投稿の情報を更新しました
2022/02/14: ベースラインシステムを追加しました
2022/02/09: 最終報告会 事前参加登録を開始しました
2022/02/09: 最終報告会 招待講演2 の詳細を公開しました
2022/02/04: 最終報告会 招待講演1 の詳細を公開しました
2022/02/04: リーダーボードへの投稿について提出物の扱いや権利関係を追記しました
2021/12/22: 最終報告会の開催情報を公開しました
2021/12/06: ベースラインシステムを追加しました
2021/12/01: リーダーボードへの投稿を公開しました
2021/12/01: 公式配布データセットを更新しました
2021/10/11: ベースラインシステムを公開しました
2021/09/27: 第2回コンペティション情報を公開しました
重要日程
2021/09/27: 第2回コンペティション情報公開
2021/12/01: リーダーボードへの投稿開始
2022/03/04: 第2回コンペティション最終報告会 事前参加申込み締切
2022/03/07: リーダーボードへの投稿締切
2022/03/11: 第2回コンペティション最終報告会 開催
ルール
基本的には,あらゆる情報を使ってクイズの正解率を上げる計算モデルを構築することが目的のコンペティションです.
第1回コンペティションでは,クイズ問題に対する解答は,与えられたエンティティリスト内の約92万項目のいずれかになるように問題を設計しました.また,初めから約92万項目の膨大な選択肢の中から正解項目を見つけ出すのは困難であると予想されたため,ヒントとして各問題に対して20個の候補項目を付与しました.つまり,20個の選択肢からの択一問題を解くという問題設定です.
それに対して,第2回コンペティションでは,選択肢を排除し,また,解答も第1回で用いたリストを用意せず,あらゆる解答がありえるという,より通常のクイズ大会に近い設定とします.つまり,問題として与えられるのはクイズの問題文のみです.その問題文から解答となる文字列を解答として返すシステムを構築してもらいます.
リーダーボードへの投稿
本コンペティションへの参加,すなわちリーダーボードへの投稿には, Slack ワークスペース AI王 〜クイズAI日本一決定戦〜 への参加が必要です.リーダーボードへのアクセス方法やアカウントの発行方法は,AI王 Slack ワークスペース内にて告知しております.
リーダーボードへの投稿は,質問応答システムの Docker イメージを Web サイトを通じてアップロードすることにより行います.具体的な方法については こちらのページ をご覧ください.
2022/02/14: Docker イメージのサイズの要件について更新しました
リーダーボードへの投稿締切は 2022年3月7日 (月) 23:59 です.
なお,本コンペティションにおける提出物の扱いや権利関係については,以下の通りといたします.
投稿者本人の依頼または許可がない限り,Dockerイメージの内容(中身のコード)を運営は確認しない
投稿者本人の依頼または許可がない限り,本コンペティションの精度評価以外に利用しない
投稿者本人の依頼または許可がない限り,本評価システムから外部の記憶媒体にコピーしない
投稿者本人の依頼または許可がない限り,本コンペティション終了後一定期間の後に全て削除する
評価指標
テストデータに対する正解率を評価指標とします.ただし,別解や正解の表記揺れが存在する可能性があるため,事前に用意された文字列との完全一致率による評価(自動評価)と,人間の採点者による別解や表記揺れを含めた評価(人手評価)の2種類の評価を用います.
自動評価は,リーダーボードの速報値として利用します.あくまで一次評価という扱いです.
人手評価は,コンペティションの最終投稿に対して最終評価として実施します.
利用可能データに関するルール
利用可能なデータは一般公開されているもののみとします.研究促進が目的であるため,一部のユーザしか使えないデータなどを使ったシステムは評価対象外とします.
ただし,独自に作成したデータであっても,無償で一般公開すれば利用可能となります.他の組織でも結果を再現できるか,というのが一つの目安となります.
本コンペティションのサイトが提供するデータのうち開発データ用となっているものも学習に利用してもよいこととします.データの区分はあくまでも論文を書く際などの目安の区切りのため,コンペティションにおいて利用することを妨げません.
JAQKETの訓練データ・開発データ
参加者が独自にダウンロードしたWikipediaのデータ
解答時に外部のリソース(インターネット検索など)を利用するのは禁止です.
利用可能計算機リソースに関するルール
基本的に単一の計算機内のリソースで動くことを想定します(どこまでを単一計算機と思うかは常識的な範囲で考えてください).
Google Cloud Platform のインタンス上での評価を想定します.そのため,そのインスタンス上で実行時間が6時間 3時間 (2022/2/16 修正) を超過する場合は「実行不能」と判断します.
No private sharing outside team ルール
コンペティション期間中はチーム外の他の参加者と、公式 Slack ワークスペースなどの場以外のプライベートな場において、コードやデータなどを共有することや、戦略などについて具体的な議論を行うことを禁止します。
チーム間の情報格差による公平性を保つための措置です.
複数チームによるチームマージは可能です。チーム外の他の参加者とのコード共有や議論などを行う場合は、チームマージした上で行って下さい。
マージする際は、複数チームから一つのチームを選択していただきます。
過去に提出された結果は一つのチームにマージすることができません。選択されなかったチームの提出結果は、ユーザがいなくなっても記録として残り続けることとなります。
ベースラインシステム
ベースラインシステムとして,近年の深層ニューラルネットワーク (DNN) に基づく質問応答 (QA) システムで最も用いられている Retrieve and Read 方式(または,Retriever-Reader 方式)のシステムを提供します.より具体的には,DPR [Karpukhin+, EMNLP 2020] をベースに本コンペティションで扱う日本語クイズ問題で利用できるように改修したものになります. 本ベースラインシステムを理解することで,現在のモダン QA システムの理解の一助となることを期待して,このシステムをベースラインとして提供することにしました.
参考文献: Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih. Dense Passage Retrieval for Open-Domain Question Answering. In EMNLP, pp. 6769–6781, 2020. [Paper] [GitHub]
また,実行委員が作成した以下のモデルもベースラインとして公開しています.モデルや推論スクリプトの実装の参考にお役立てください.
与えられる質問に対して,訓練データ内の質問との類似度を TF-IDF により計算し,最も類似度の高い質問の正解をそのまま解答として出力するベースラインです.
aio2-soseki-baseline NEW!
結果報告 NEW!
本コンペティションへのたくさんのご参加ありがとうございました!
おかげさまで,招待講演やシステム報告と,大いに盛り上がることができました.
参加チーム数は8(+ベースライン2)でした.
以下に,第2回コンペティションで優秀な成績を収めた上位3チームの結果を掲載します.
入賞おめでとうございます!
問い合わせ先
お問い合わせは次のGoogle Group: jaqket at googlegroups.com までお気軽にお寄せください.
リーダーボードへの投稿には Slack ワークスペース: AI王 〜クイズAI日本一決定戦〜 への参加が必要です.
Twitter アカウントでも情報を発信しています: @AioJaqket
ライセンス・謝辞
本コンペティションで利用するクイズ問題は,下記の通り提供を受けています.記して感謝いたします.
「第1回コンペティション 学習用データ」のクイズ問題,および「第2回コンペティション 学習用データ」で該当するクイズ問題の著作権は abc/EQIDEN 実行委員会 に帰属します.これらのクイズ問題は,東北大学において非商用の研究目的での再配布許諾を得ています.
「第1回コンペティション 開発用データ」「第1回コンペティション 評価用データ」「第1回コンペティション 未使用データ」のクイズ問題,および「第2回コンペティション 学習用データ」で該当するクイズ問題は,株式会社キュービック および クイズ法人カプリティオ へ依頼して作成しました.これらのクイズ問題は,クリエイティブ・コモンズ 表示-継承 4.0 国際 ライセンスのもとに提供されています.
Reference
[鈴木ら 2020] 鈴木正敏, 鈴木潤, 松田耕史, ⻄田京介, 井之上直也. “JAQKET:クイズを題材にした日本語QAデータセットの構築”. 言語処理学会第26回年次大会(NLP2020)発表論文集. [paper]
[Karpukhin et al. 2020] Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih. In EMNLP, pages 6769–6781, 2020. [paper]
[Devlin et al. 2019] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. BERT: Pre-training of Deep Bidirectional Trans-formers for Language Understanding. In NAACL, volume 1, pages 4171–4186, 2019. [paper]