概要
日本の(日本語を対象とした)質問応答研究を促進させることを目的としています.クイズ問題を題材とした質問応答データセットを用いて,みんなで人工知能クイズ王(=「AI王」)を開発しましょう!
過去のコンペティションについてはこちらを参照ください.
重要日程
2022/08/30: コンペティション開始
2022/11/23: リーダーボード最終投稿日
2022/11/26: システム最終投稿日
2022/12/02: 最終報告会
ルール
第2回コンペティションと同様のルールを採用します.
つまり,与えられたクイズの問題文に対し,その解答となる文字列を返すシステムを構築していただきます.
最終的なシステム投稿の方法については,こちらのページ をご覧ください.
本コンペティションへ参加するには,Slack ワークスペース AI王 〜クイズAI日本一決定戦〜 への参加が必要です.下記に説明されているリーダーボードへのアクセス方法やアカウントの発行方法は,AI王 Slack ワークスペース内にて告知しております.
評価(最終的な順位の決め方)
テストデータの正解率を評価指標としてシステムの順位を決めます.
第2回コンペティションと同様に,構築した質問応答システムの Docker イメージをアップロードしていただき,そのシステムを運営側の計算機で動かして,最終評価用テストデータに対する成績で順位を決定します.
ただし,第2回コンペティションとは評価の仕方を大きく変更します.
第2回コンペティションでは,毎日決まった時間(0:00-8:00)を評価時間と設定し,運営側の計算機上でアップロードしていただいたDocker イメージを実行し,その結果をリーダーボードに反映していました.また,リーダーボード上の結果がそのまま最終的な順位となる方式を採用していました.この方式は,問題文も含めてテストデータが参加者には見えないことを担保できるため,問題文を見てテストデータに極端に特化したシステムを作成することや人間がシステムの予測解答を書き換えるといったルール違反を完全に防止できるという観点で,最も公平かつ公正に参加者のシステムを評価できるよい評価の仕組みだと考えています.しかし, Docker イメージを毎日のようにアップロードするのは参加者および運営側の負担が大きかったと考え,第3回コンペティションでは,最終評価用に最低一回システムをアップロードすればよいこととします.またその評価結果はリーダーボードには反映されず,最終報告会にて順位と共に公表します.
なお,本コンペティションにおける提出物の扱いや権利関係については,以下の通りといたします.
投稿者本人の依頼または許可がない限り,Dockerイメージの内容(中身のコード)を運営は確認しない
投稿者本人の依頼または許可がない限り,本コンペティションの精度評価以外に利用しない
投稿者本人の依頼または許可がない限り,本評価システムから外部の記憶媒体にコピーしない
投稿者本人の依頼または許可がない限り,本コンペティション終了後一定期間の後に全て削除する
リーダーボード上の評価
第3回コンペティションでも,第1回および第2回と同様にリーダーボードを利用します.リーダーボードは他のチームとの現時点での比較の目安としていただく目的で用意しています.
ただし,第2回コンペティションとは異なり,第3回コンペティションでは,リーダーボード投稿用テストデータ(問題文のみ公開,解答は非公開)を配布し,そのテストデータの問題文に対する予測解答を投稿していただきます.
なお,リーダーボード投稿用テストデータと最終的な順位を決定する最終評価用テストデータは同じデータではありません.最終評価用テストデータは(少なくとも第3回コンペティション最終報告会が終了するまでは)問題文も含めて完全に非公開になります.リーダーボード投稿用テストデータと最終評価用テストデータは同じ形式で同じ作者によって作成されたデータになります.よって,問題の傾向などは同じなので基本的にはリーダーボード投稿用テストデータの成績が上がれば最終評価用テストデータも上がるはずです.ただし,リーダーボード投稿用テストデータに過適応したシステムにならないように注意してください.
評価の仕方
テストデータの問題には事前に正解が用意されています.基本的には,システムの予測解答と事前に用意した正解の文字列を比較し,一致した時に正解,一致しなかった時に不正解と判定します.
ただし,正解として事前に用意した文字列以外にも表記揺れや別解が存在する可能性があります.事前に用意された正解との完全一致率による評価(自動評価)と,人間の採点者による別解や表記揺れを含めた評価(人手評価)の2種類の評価を用います.
リーダーボード上の評価には自動評価を用います(ただし,ある程度の別解はすでに用意済み).
最終評価には人手評価を用います.
利用可能データに関するルール
利用可能なデータは一般公開されているもののみとします.研究促進が目的であるため,一部のユーザしか使えないデータなどを使ったシステムは評価対象外とします.独自に作成したデータであっても,無償で一般公開すれば利用可能となります.「他の組織でも結果を再現できる」というのが一つの目安となります.
第3回コンペティションでは 2022年10月1日 23:59 までに一般に公開されているデータを利用可能とします.
参考までに,独自に作成したデータの一般公開が必要かどうかの判断例を記載します.
データ(問題)の作成やそれらに対する答えの取得や正誤判定を,公開されているモデルやアルゴリズムによって行う・判断する場合:公開の必要なし(同じモデルやアルゴリズムを用いることで、他の組織も結果を再現できるため)
データ(問題)の作成やそれらに対する答えの取得や正誤判定を,人間が直接行う・補助するような方法で行われている場合:公開の必要あり(人間が関わった部分は、他の組織によって結果が再現できないため)
本コンペティションのサイトが提供するデータのうち,開発データ用となっているものを学習に利用してもよいこととします.データの区分はあくまでも論文を書く際などの目安の区切りのため,コンペティションにおいて利用することを妨げません.
解答時に外部のリソース(インターネット検索など)を利用するのは禁止です.
利用可能計算機リソースに関するルール
基本的に単一の計算機内のリソースで動くことを想定します(どこまでを単一計算機と思うかは常識的な範囲で考えてください).
Dockerにより最終提出されたシステムは,GCP上に用意されたインスタンスを用いて評価します.スペックは以下の通りです.
vCPU 12, Memory 78GB + Nvidia Tesla V100 (Memory 16GB) x1(なお,参加者の参加状況に応じて今後増強される可能性があります.)
Docker は外部との通信ができない設定で起動します.
上記スペックのマシンにおいて,1,000問のテストデータを6時間以内に解答できることを条件とします.制限を超過する場合は「実行不能」と判断します.
No private sharing outside team ルール
コンペティション期間中は,チーム外の他の参加者と,公式 Slack ワークスペースなどの場以外のプライベートな場において,コードやデータなどを共有することや,戦略などについて具体的な議論を行うことを禁止します.
チーム間の情報格差による公平性を保つための措置です.
複数チームによるチームマージは可能です,チーム外の他の参加者とのコード共有や議論などを行う場合は,チームマージした上で行ってください.
マージする際は,複数チームから一つのチームを選択していただきます.
過去に提出された結果は一つのチームにマージすることができません.選択されなかったチームの提出結果は,ユーザがいなくなっても記録として残り続けることとなります.
データセット
学習用・開発用データ
システムの学習用・開発用データとして AI王公式配布データセット Version 2.0 をご利用いただけます.データセット のページよりダウンロードできます.
※システムの訓練・開発に本データを利用することは必須ではありません.また,開発用データをシステムの学習に使っても良いこととします.詳しくは「利用可能データに関するルール」をご確認ください.
リーダーボード投稿用テストデータ(問題のみ)
第3回コンペティションのリーダーボード投稿用テストデータは下記よりダウンロードできます.
リーダーボード投稿用テストデータ (1,000問)
テストデータは,質問 ID ( qid ) と問題文 ( question ) のみを含んだ,下記のような JSON Lines (jsonl) 形式になっています.
{"qid": "AIO02-1001", "question": "全長は約10.9km。アメリカの国道1号線の一部である、フロリダ・キーズの島々を結ぶ橋の名前は何?"}
{"qid": "AIO02-1002", "question": "コロイド溶液に光を通した時、光の散乱によって道筋が見える、という現象を、発見者にちなんで何現象という?"}
{"qid": "AIO02-1003", "question": "スティーブン・キングの小説『刑務所のリタ・ヘイワース』を原作とする、無実の罪によって投獄された銀行員を描いた、1994年公開の映画は何?"}
...
ベースラインシステム
第3回コンペティション向けに,ベースラインシステムをご用意しています.こちら からご利用いただけます.
リーダーボード
第3回コンペティションのリーダーボードは こちら です.
投稿する解答ファイルの形式
リーダーボードには,上記「データセット」のリーダーボード投稿用テストデータに対するシステムの予測解答を投稿していただきます.投稿するファイルは,質問ID ( qid ) と解答 ( prediction ) を含んだ,下記のような JSON Lines (jsonl) 形式である必要があります( qid と question 以外のキーと値のペアは無視されます).
{"qid": "AIO02-1001", "prediction": "○○○"}
{"qid": "AIO02-1002", "prediction": "△△△"}
{"qid": "AIO02-1003", "prediction": "×××"}
...
投稿された解答の自動評価
リーダーボードに投稿された解答の自動評価は,あらかじめ用意された正解と,システムが予測した解答の完全一致 (exact match) による正解率を計算することで行います.ただし,ここでの完全一致は,正解とシステムの予測解答のそれぞれに対し,以下の正規化処理を行った上で,文字列の一致を評価します.
空白の削除
また,正解の別名や表記揺れが考えられる場合など,1つの質問に正解が複数用意されている場合は,1つでも完全一致するものがあれば正解とみなします.
※自動評価における,正規化処理の内容や,正解として付与されている別解については,今後アップデート(拡充)される可能性があります.
投稿された解答の評価タイミング
リーダーボードに投稿された解答ファイルは毎日 3:00(午前3時)に評価されます.評価が終わり次第,評価結果は即時リーダーボードに反映されます.評価される解答は,各チーム毎日 3:00 までに投稿された解答のうち一番新しいものになります.実際に評価前に複数回投稿したとしても,最後の投稿分のみがシステムに仮保存され,評価待ちの状態になります.
評価が行われる毎日 3:00 の前後数分は,評価を安全に実行するためにシステム投稿を受け付けない時間があります.3:00 の評価に確実に間に合わせるためには, 2:50 までには解答ファイルを投稿を完了するようにしてください.2:50 から 3:00 までに投稿された解答ファイルは 3:00 に評価されることを保証しないことにします.
補足: リーダーボードの評価が1日1回なのは,リーダーボードに大量に解答を投入して偶然よい結果を得たり,どういった傾向の解答がより正解になりやすいかといったリーダボードハックを防ぐための措置です.こういった行為はコンペティションにおいて公平な評価を阻害する要因になり得るので,禁止したいと考えています.
日々の作業として,システムの細かい修正により性能が向上したかどうかを判断したい場合は,上記「データセット」で紹介している開発用データを使ってそれぞれの手元の計算機にて実施してください.リーダーボードは,細かいシステムの修正やハイパーパラメタチューニングなどで性能が向上したかどうかを逐次判断する用途として用意されているものではない点を理解していただければと思います.
メンテナンス
コンペティション期間中に何かの理由でリーダーボードのメンテナンスが発生する可能性があります.メンテナンスは,基本的に(緊急性がない場合)休日(土曜日,日曜日,祝日)に実施する予定です.週末にメンテナンスが発生する可能性があることを前提としてシステムの開発プランを立てていただければと思います.
結果報告
本コンペティションへのたくさんのご参加ありがとうございました!
おかげさまで,最終報告会では,招待講演やシステム報告と,大いに盛り上がることができました.
参加チーム数は7(+ベースライン4)でした.
以下に,第3回コンペティションで優秀な成績を収めた上位3チームの結果を掲載します.
入賞おめでとうございます!
優勝
レヴォ
(NECデータサイエンス研究所)
正解数 938/1000
準優勝
ICS Lab.
(株式会社ベルシステム24ホールディングス)
正解数 931/1000
第3位
VARCH
(株式会社PKSHA Technology)
正解数 826/1000
問い合わせ先
AI王に関するお問い合わせは Google Group: jaqket at googlegroups.com までお気軽にお寄せください.
リーダーボードへの投稿には Slack ワークスペース: AI王 〜クイズAI日本一決定戦〜 への参加が必要です.
Twitter アカウントでも情報を発信しています: @AioJaqket