AI王 〜クイズAI日本一決定戦〜

3回コンペティション
2022年8月〜2022年12実施

👑 最終報告会の開催概要はこちらから!

概要

日本の(日本語を対象とした)質問応答研究を促進させることを目的としていますクイズ問題を題材とした質問応答データセットを用いてみんなで人工知能クイズ王(=「AI王」)を開発しましょう!

過去のコンペティションについてはこちらを参照ください.

更新履歴

重要日程 

ルール

第2回コンペティションと同様のルールを採用します.
つまり,与えられたクイズの問題文に対し,その解答となる文字列を返すシステムを構築していただきます.
最終的なシステム投稿の方法については,こちらのページ をご覧ください.

本コンペティションへ参加するにはSlack ワークスペース AI王 〜クイズAI日本一決定戦〜 への参加が必要です下記に説明されているリーダーボードへのアクセス方法やアカウントの発行方法はAI王 Slack ワークスペース内にて告知しております.

評価(最終的な順位の決め方)

テストデータの正解率を評価指標としてシステムの順位を決めます.

第2回コンペティションと同様に,構築した質問応答システムの Docker イメージをアップロードしていただき,そのシステムを運営側の計算機で動かして,最終評価用テストデータに対する成績で順位を決定します. 

ただし,第2回コンペティションとは評価の仕方を大きく変更します.

第2回コンペティションでは,毎日決まった時間(0:00-8:00)を評価時間と設定し,運営側の計算機上でアップロードしていただいたDocker イメージを実行し,その結果をリーダーボードに反映していました.また,リーダーボード上の結果がそのまま最終的な順位となる方式を採用していました.この方式は,問題文も含めてテストデータが参加者には見えないことを担保できるため,問題文を見てテストデータに極端に特化したシステムを作成することや人間がシステムの予測解答を書き換えるといったルール違反を完全に防止できるという観点で,最も公平かつ公正に参加者のシステムを評価できるよい評価の仕組みだと考えています.しかし, Docker イメージを毎日のようにアップロードするのは参加者および運営側の負担が大きかったと考え,第3回コンペティションでは,最終評価用に最低一回システムをアップロードすればよいこととしますまたその評価結果はリーダーボードには反映されず,最終報告会にて順位と共に公表します.

なお,本コンペティションにおける提出物の扱いや権利関係については,以下の通りといたします.

リーダーボード上の評価

第3回コンペティションでも,第1回および第2回と同様にリーダーボードを利用します.リーダーボードは他のチームとの現時点での比較の目安としていただく目的で用意しています.

ただし,第2回コンペティションとは異なり,第3回コンペティションではリーダーボード投稿用テストデータ(問題文のみ公開,解答は非公開)を配布し,そのテストデータの問題文に対する予測解答を投稿していただきます

なお,リーダーボード投稿用テストデータと最終的な順位を決定する最終評価用テストデータは同じデータではありません.最終評価用テストデータは(少なくとも第3回コンペティション最終報告会が終了するまでは)問題文も含めて完全に非公開になります.リーダーボード投稿用テストデータ最終評価用テストデータは同じ形式で同じ作者によって作成されたデータになります.よって,問題の傾向などは同じなので基本的にはリーダーボード投稿用テストデータの成績が上がれば最終評価用テストデータも上がるはずです.ただし,リーダーボード投稿用テストデータに過適応したシステムにならないように注意してください.

評価の仕方

テストデータの問題には事前に正解が用意されています.基本的には,システムの予測解答と事前に用意した正解の文字列を比較し,一致した時に正解,一致しなかった時に不正解と判定します.

ただし,正解として事前に用意した文字列以外にも表記揺れや別解が存在する可能性があります.事前に用意された正解との完全一致率による評価(自動評価)と,人間の採点者による別解や表記揺れを含めた評価(人手評価)の2種類の評価を用います.

利用可能データに関するルール

第3回コンペティションでは 2022年10月1日 23:59 までに一般に公開されているデータを利用可能とします.

参考までに,独自に作成したデータの一般公開が必要かどうかの判断例を記載します.

利用可能計算機リソースに関するルール

No private sharing outside team ルール

データセット

学習用・開発用データ

システムの学習用・開発用データとして AI王公式配布データセット Version 2.0ご利用いただけます.データセット のページよりダウンロードできます.

※システムの訓練・開発に本データを利用することは必須ではありません.また,開発用データをシステムの学習に使っても良いこととします.詳しくは「利用可能データに関するルール」をご確認ください.

リーダーボード投稿用テストデータ(問題のみ)

第3回コンペティションのリーダーボード投稿用テストデータは下記よりダウンロードできます

テストデータは,質問 ID (  qid  ) と問題文 (  question  ) のみを含んだ,下記のような JSON Lines (jsonl) 形式になっています.

{"qid": "AIO02-1001", "question": "全長は約10.9km。アメリカの国道1号線の一部である、フロリダ・キーズの島々を結ぶ橋の名前は何?"}

{"qid": "AIO02-1002", "question": "コロイド溶液に光を通した時、光の散乱によって道筋が見える、という現象を、発見者にちなんで何現象という?"}

{"qid": "AIO02-1003", "question": "スティーブン・キングの小説『刑務所のリタ・ヘイワース』を原作とする、無実の罪によって投獄された銀行員を描いた、1994年公開の映画は何?"}

...

ベースラインシステム

第3回コンペティション向けに,ベースラインシステムをご用意しています.こちら からご利用いただけます.

リーダーボード

第3回コンペティションのリーダーボードは こちら です.

投稿する解答ファイルの形式

リーダーボードには,上記「データセット」のリーダーボード投稿用テストデータに対するシステムの予測解答を投稿していただきます投稿するファイルは,質問ID (  qid  ) と解答 (  prediction  ) を含んだ,下記のような JSON Lines (jsonl) 形式である必要があります( qid  と  question  以外のキーと値のペアは無視されます)

{"qid": "AIO02-1001", "prediction": "○○"}

{"qid": "AIO02-1002", "prediction": "△△"}

{"qid": "AIO02-1003", "prediction": "×××"}

...

投稿された解答の自動評価

リーダーボードに投稿された解答の自動評価は,あらかじめ用意された正解と,システムが予測した解答の完全一致 (exact match) による正解率を計算することで行います.ただし,ここでの完全一致は,正解とシステムの予測解答のそれぞれに対し,以下の正規化処理を行った上で,文字列の一致を評価します.

​また,正解の別名や表記揺れが考えられる場合など,1つの質問に正解が複数用意されている場合は,1つでも完全一致するものがあれば正解とみなします.

※自動評価における,正規化処理の内容や,正解として付与されている別解については,今後アップデート(拡充)される可能性があります.

投稿された解答の評価タイミング

リーダーボードに投稿された解答ファイルは毎日 3:00(午前3時)に評価されます.評価が終わり次第,評価結果は即時リーダーボードに反映されます.評価される解答は,各チーム毎日 3:00 までに投稿された解答のうち一番新しいものになります.実際に評価前に複数回投稿したとしても,最後の投稿分のみがシステムに仮保存され,評価待ちの状態になります.
評価が行われる毎日 3:00 の前後数分は,評価を安全に実行するためにシステム投稿を受け付けない時間があります.3:00 の評価に確実に間に合わせるためには, 2:50 までには解答ファイルを投稿を完了するようにしてください.2:50 から 3:00 までに投稿された解答ファイルは 3:00 に評価されることを保証しないことにします.

補足: リーダーボードの評価が1日1回なのは,リーダーボードに大量に解答を投入して偶然よい結果を得たり,どういった傾向の解答がより正解になりやすいかといったリーダボードハックを防ぐための措置です.こういった行為はコンペティションにおいて公平な評価を阻害する要因になり得るので,禁止したいと考えています.
日々の作業として,システムの細かい修正により性能が向上したかどうかを判断したい場合は,上記「データセット」で紹介している開発用データを使ってそれぞれの手元の計算機にて実施してください.リーダーボードは,細かいシステムの修正やハイパーパラメタチューニングなどで性能が向上したかどうかを逐次判断する用途として用意されているものではない点を理解していただければと思います.

メンテナンス

コンペティション期間中に何かの理由でリーダーボードのメンテナンスが発生する可能性があります.メンテナンスは,基本的に(緊急性がない場合)休日(土曜日,日曜日,祝日)に実施する予定です.週末にメンテナンスが発生する可能性があることを前提としてシステムの開発プランを立てていただければと思います.


結果報告

本コンペティションへのたくさんのご参加ありがとうございました!
おかげさまで,最終報告会では,招待講演やシステム報告と,大いに盛り上がることができました.
参加チーム数は7(+ベースライン4)でした.

以下に,第3回コンペティションで優秀な成績を収めた上位3チームの結果を掲載します.
入賞おめでとうございます!

優勝

レヴォ
(NECデータサイエンス研究所)

正解数 938/1000

準優勝

ICS Lab.
(株式会社ベルシステム24ホールディングス)

正解数 931/1000

第3位

VARCH
(株式会社PKSHA Technology)

正解数 826/1000

実行委員

第3回コンペティション

実行委員長

実行委員

問い合わせ先