第4回コンペティション 「早押し解答部門」

2023年10月〜2024年1月実施

本コンペティションは、SIGNATE のコンペティションプラットフォームにて実施しました。コンペティションの実施内容については SIGNATE のコンペティションページ もあわせてご覧ください。

日程

ルール概要

与えられた早押しクイズの問題文に対して、その解答を出力するシステムを構築していただきます。

クイズの問題は、下記のような形式で、問題文の位置 ( position ) が進むごとに1文字ずつ増える形で与えられます。すなわち、各問題について、問題文の長さを L としたとき、1文字目までの問題文、2文字目までの問題文、...、L 文字目までの問題文の計 L 件のJSONの項目が入力されます。

{"qid": "AIO04-0001", "position": 1, "question": "1"}

{"qid": "AIO04-0001", "position": 2, "question": "19"}

{"qid": "AIO04-0001", "position": 3, "question": "194"}

... 

{"qid": "AIO04-0001", "position": 44, "question": "1945年、ラテンアメリカの文学者として初めてノーベル文学賞を受賞した、チリの詩人は誰?"}

これらの項目の入力のそれぞれに対して、その時点の問題文に対して予測できた解答を出力していただきます。解答の確信度が十分でない場合は null を出力するものとします(問題文全文を見てから過去の position に遡って解答するのは NG です)。

{"qid": "AIO04-0001", "position": 1, "prediction": null}

{"qid": "AIO04-0001", "position": 2, "prediction": null}

...

{"qid": "AIO04-0001", "position": 30, "prediction": "○○○"}

...

{"qid": "AIO04-0001", "position": 44, "prediction": "○○○"}

予測した解答が正解であった場合、正解した時点の問題文の位置 ( position ) に応じたスコアが与えられ、問題文のより早い(= position の値が小さい)段階で正解を出力できるとより高いスコアが与えられます。ただし、null 以外の誤った解答を一定数出力した場合、その問題は無得点となります。テストデータのすべての問題に対してスコアを計算し、その合計を競います。

評価方法

第4回コンペティションでは、システムの性能評価をリーダーボード(自動評価)と最終評価(人手評価)の2段階で行います。

リーダーボード(自動評価)

リーダーボードでは、リーダーボード用テストデータ(問題文のみ公開)に対するシステムの解答ファイルをアップロードしていただき、正誤判定を自動で行うことで評価を行います。

テストデータの各問題に対して、事前に用意された正解(いくつかの別解を含む)とシステムが予測した解答を比較し、記号などの正規化処理後の文字列が完全に一致すれば正解、一致しなければ不正解としてスコアを計算します(正規化処理については こちらのコード を参照してください)。

最終評価(人手評価)

最終評価では、構築したシステムのDockerイメージを提出していただき、最終評価用テストデータ(非公開)に対する推論を運営側で用意した計算機(評価サーバ)で実行することで評価を行います。

最終評価では、システムが予測した解答の正誤判定を人間の採点者が行います。これは、事前に用意された正解および別解ではカバーしきれないシステムの正答に対しても正しく評価を行うためです。

Dockerイメージは、下記の要件をすべて満たすAPIとして作成していただきます。

{"prediction": システムが予測する解答の文字列 または null}

評価サーバでは、起動したコンテナに対して、最終評価用テストデータの全ての問題文についてリクエストの送信とレスポンスの受信を繰り返し行います。レスポンスとして受信した解答を集約したものを、最終評価用テストデータ全体に対する解答とします。

※リクエストとして送信される問題文の順番はリーダーボード用テストデータと同様です。すなわち、1問目の1文字目までの問題文、1問目の2文字目までの問題文、...、最終問題の最後の文字までの問題文、という順番で与えられます。

Dockerイメージの提出は、リーダーボード評価期間終了後の一定期間内に1回行っていただきます。Dockerイメージの提出方法は、SIGNATEより参加者へ個別にお知らせします。

下記ベースラインシステムには、APIの作成方法およびDockerイメージの構築方法が含まれています。必要に応じて、実装の参考にしてください。

スコアの算出方法

テストデータに含まれる各問題について、下記の Accuracy ScorePosition Score の和をその問題のスコアとし、すべての問題に対するスコアの合計を評価対象とします。

ただし、1つの問題で誤答できるのは3回までで、正解を出力する前に null でない4種類以上の誤答を出力した場合、その問題は無得点とします。

以下に、スコア計算の例を示します。

ルール

リーダーボードに関するルール

最終評価に関するルール

※Dockerイメージの要件および提出方法については後日ご案内します。

※最終評価の問題数、評価サーバのスペック、および制限時間は、今後変更される可能性があります(変更の場合は事前にお知らせします)。

利用可能なデータ

利用可能な計算機リソース

ChatGPT などの LLM の利用に関するルール

No private sharing outside team ルール

データセット

本コンペティション向けに提供しているデータセットは データセット のページよりダウンロードできます。

学習用データ

システムの学習用データとして AI王公式配布データセット Version 2.0 をご利用いただけます。

※システムの学習・開発に本データを利用することは必須ではありません。また、開発用データをシステムの学習に使っても良いこととします。詳しくは「利用可能なリソースに関するルール」をご確認ください。

開発用データ・リーダーボード用テストデータ・最終評価用テストデータ

第4回コンペティションの早押し解答タスク向けに、開発用データおよびリーダーボード用テストデータ(問題のみ)を AI王公式配布データセット Version 3.0 として提供しています。

第4回コンペティションの開発用データ、リーダーボード用テストデータ、および最終評価用テストデータは、同じ作者によって同じ時期に作成されたクイズ問題の集合からランダムサンプルされたものであるため、出題の傾向はほぼ同じです。

ベースラインシステム

第4回コンペティション向けにベースラインシステムをご用意しています。こちら からご利用いただけます。

リーダーボード

早押し解答部門のリーダーボードは こちら です(SIGNATE のページに移動します)。