AI王 〜クイズAI日本一決定戦〜
第1回コンペティション
概要
日本の(日本語を対象とした)質問応答研究を促進させることを目的としています.クイズ問題を題材とした質問応答データセットを用いて,みんなで人工知能クイズ王(=「AI王」)を開発しましょう!
更新履歴
2021/10/01: リーダーボード,ライブコンペティションで使用した評価データを公開しました.
2021/03/19: リーダーボード,ライブコンペティションの結果を公開しました.
2021/01/20: 補助データとして使用可能な Wikipedia 記事の本文をまとめたファイルを更新しました.
2021/01/18: 開発データのモデル学習への利用禁止に関するルールを撤回しました.開発データを含めたすべてのデータを学習に用いていただけます.
2021/01/18: 最終報告会で開催するライブコンペティションの参加受付を開始しました.下記ウェブサイトよりご応募いただけます.
最終報告会では “No private sharing outside team ルール” を新たに適用いたします.改めてルールを熟読くだされば幸いです.
2020/11/23: 最終報告会(言語処理学会年次大会ワークショップ)の開催が決定しました!
2020/10/03: 開発データのモデル学習への利用禁止に関するルールを明確化しました.もし開発データを利用したシステムの結果をリーダーボードに投稿している場合は,利用していないシステムで再投稿をお願いします.
2020/04/24: 9月に開催予定の最終報告会を含めた全体の日程について,見直しを行っております.先が見えない状況のなか大変申し訳ありませんが,当面の間はリーダーボード上でのコンペティションに積極的にご参加いただければ幸いです.
2020/04/21: 説明スライドを公開しました.正解エンティティ候補リストへのリンクを行いました.
2020/04/19: ベースラインコードを公開しました.
2020/04/17: 本日予定していたオンライン説明会ですが,諸事情により動画の配信等は行わず,順次資料を公開する形で行います.楽しみにしていた方々には申し訳ありません.
2020/03/17: コンペティションの概要を公開しました.本日 13:15より, 言語処理学会ポスターセッション(P2-24)において,データセットおよびコンペティションに関するオンラインでのポスター発表を行います.ぜひ聴きにいらしてください.
データセット
第1回コンペティションでは、AI王公式配布データセット Version 1.0 を使用します.
[2021/10/12 追記] リーダーボード,および最終報告会におけるライブコンペティションで使用した評価データを公開します.
データを取得したい場合は,下記「問い合わせ先」のGoogle Groupまでお問い合わせください.
重要日程
2020/04/17: タスク開始
2021/03/19: 最終報告会
言語処理学会第27回年次大会 の一部(ワークショップ)として開催されます.
最終的な順位は,最終報告会当日に配布する(リーダーボード用データとは別の)テストデータに対する正解率 に基づいて その場で決定 します.
最終報告会当日の テストデータ公開後,規定時間(30分を予定)以内に解答が投稿されなければ時間切れ と判定します.
最終報告会で公開するテストデータの問題数は,1000問を予定しています.
ご希望されるチームには,システムの概要をまとめた短いプレゼンテーションをお願いすることも予定しています.
以下は当初(COVID-19の感染拡大前に)予定していたスケジュール案です.記録のために残してあります.
当初は下記の日程でコンペティションを進行する予定でしたが,COVID-19の感染拡大による社会情勢の変化を鑑み,中間説明会/最終報告会の開催の可否・日程を再検討中です.日程が決まりましたら,再度アナウンスを行います.それまでは,パイロット期間としてリーダーボード上でのコンペティションに積極的にご参加ください.- 2020/04/17: より順次説明資料をアップロード・タスク開始
- 2020/06中: 中間説明会
- 2020/09/28: 最終報告会・表彰
- オンラインかオフラインかなど,具体的な実施形態については調整中です.
- 得られた研究成果は積極的に論文等で発表することをおすすめします. 説明資料のアップロード(2020/04/17)
- 本日より,タスク詳細に関する説明資料を順次アップロードしていきます. 中間説明会(2020/06中)
- 詳細は日程は未定ですが,中間説明会を予定しています.
- オンラインでの開催を予定しています. 最終報告会(2020/09/28)
- 当初オフラインでの開催を予定しておりましたが,具体的な実施形態は検討中です.
- 最終的な順位は,最終報告会当日に配布する(リーダーボード用データとは別の)テストデータに対する正解率 に基づいて その場で決定 します.
- 最終報告会当日の テストデータ公開後,規定時間(30分を予定)以内に解答が投稿されなければ時間切れ と判定します.
- 最終報告会で公開するテストデータの問題数は,1000問を予定しています.
- リーダーボード(後述)の上位チーム,かつ最終報告会の上位チームには,システムの概要をまとめた短いプレゼンテーションをお願いすることがあります.
ルール
基本的には,あらゆる情報を使ってクイズの正解率を上げる計算モデルを構築することが目的のコンペです.クイズ問題に対する解答は,必ず与えられたエンティティリスト内の約92万項目のいずれかになります.しかし,膨大な選択肢の中から正解項目を見つけ出すのは困難だと予想されるため,ヒントとして各問題に対して20個の候補項目を付与してあります.正解は,このなかのいずれか1つの項目になります.
評価指標
テストデータに対する正解率を評価指標とします.
利用可能データに関するルール
利用可能なデータは一般公開されているもののみとします.研究促進が目的であるため,一部のユーザしか使えないデータなどを使ったシステムは評価対象外とします.
ただし,独自に作成したデータであっても,無償で一般公開すれば利用可能となります.他の組織でも結果を再現できるか,というのが一つの目安となります.
[2021/01/17追記] 開発データのモデル学習への利用禁止に関するルールを撤回しました。例えば、次のようなデータは利用可能です。
JAQKETの訓練データ・開発データ
参加者が独自にダウンロードしたWikipediaのデータ
解答時に外部のリソース(インターネット検索など)を利用するのは禁止です.
利用可能計算機リソースに関するルール
基本的に単一の計算機内のリソースで動くことを想定します(どこまでを単一計算機と思うかは常識的な範囲で考えてください).
最終報告会当日のテストデータ公開後,規定時間(30分を予定)以内に解答が投稿されなければ時間切れと判定します.
No private sharing outside team ルール
チーム外の他の参加者と、公式 Slack ワークスペースなどの場以外のプライベートな場において、コードやデータなどを共有することや、戦略などについて具体的な議論を行うことを禁止します。
このルールはリーダーボードには適用されず、最終報告会でのライブコンペにのみ適用されます。
ベースラインシステム
BERT [Devlin et al. 2019] をベースにした読解に基づく解答モデルをベースラインとして提供しています. Huggingfaceによる実装をベースに,改変を加えたものです.
GitHubレポジトリ: https://github.com/cl-tohoku/JAQKET_baseline
また,ベースラインを動作させるのに必要な補助データとして,読解対象となりえる Wikipedia記事の本文をまとめたファイルをJSONLフォーマットで提供しています.
[2021/01/20追記] 補助データとして使用可能なWikipedia記事の本文をまとめたファイルを更新しました。今後は以下のファイルを使用してください。更新前のファイルはJAQKETで公開されています。
リーダーボード
リアルタイムにモデルの正解率を測定できるリーダーボードを用意しています.
リーダーボードに掲載する正解率計算のためのテストデータは,最終順位結果決定のためのテストデータとは別のものになります.
リーダーボードへの結果の投稿には Slack ワークスペースへの参加が必要です.
結果報告
本コンペティションへの,たくさんのご参加ありがとうございました!
おかげさまで,招待講演やシステム報告と,大いに盛り上がることができました.以下につきましては,
(1) 前哨戦として,3月18日 17:00 までのリーダーボードの成績,および
(2) 3月19日 のライブコンペ当日に公開された評価データに対する成績
について,優秀な成績を収めた上位三チームへの結果報告です.
リーダーボード 結果報告 (3/18 17:00)
参加チーム数は22,提出総数は408でした.詳細に関しましては,こちら をご覧ください. 入賞おめでとうございます!
ライブコンペティション 結果報告 (3/19 12:30)
参加チーム数は11でした.入賞おめでとうございます!
問い合わせ先
お問い合わせは 次の Google Group: jaqket at googlegroups.com までお気軽にお寄せください.
リーダーボードへの投稿には Slack ワークスペース: AI王 〜クイズAI日本一決定戦〜 への参加が必要です.
Twitter アカウントでも情報を発信しています: @AioJaqket
Reference
[鈴木ら 2020] 鈴木正敏, 鈴木潤, 松田耕史, ⻄田京介, 井之上直也. “JAQKET:クイズを題材にした日本語QAデータセットの構築”. 言語処理学会第26回年次大会(NLP2020)発表論文集. [paper]
[Devlin et al. 2019] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. BERT: Pre-training of Deep Bidirectional Trans-formers for Language Understanding. InNAACL, volume 1,pages 4171–4186, 2019. [paper]