第4回コンペティション 「問題作成部門」
2023年10月〜2024年1月実施
本コンペティションは、SIGNATE のコンペティションプラットフォームにて実施しました。コンペティションの実施内容については SIGNATE のコンペティションページ もあわせてご覧ください。
日程
2023/10/06: コンペティション開始
2023/11/30: 予選終了
2024/01/17: 本戦
2024/01/26: 決勝戦
目的
エンターテイメント分野、教育、介護などでのクイズ活用を目指し、「文法等が正しく、嘘がなく、テーマに沿ったおもしろいクイズ」を自動生成する「早押しクイズ自動作問AI」の開発を競う。
*クイズ事業応用の可能性は、以下で紹介されております。
「『文法等が正しく、嘘がなく、テーマに沿ったおもしろいクイズ』の生成、評価」のコンペ通して、自然言語処理や生成系AIの各種課題(生成系AIが間違った出力を行ういわゆる「Hallucination」など)の解決策を議論する。
コンペティションを通じ、「クイズの面白さ」を評価するデータセットを構築していく。
※ 生成系AIを評価するコンペティションは他に例が少なく、また日本語データセットも揃っていない状況です。今回は「お試しの開催」という形でご理解いただきたいと思います。
コンペ方式
大会は、予選と本戦に分かれます。
【予選】 〜2023年11月30日
こちら(json形式)で公開したインプットデータ(20個のテーマ)に対し、20問の「クイズ」と「その解答」を、目安30分以内に自動出力するAIモデルを作成していただき、フォーマット(json及びcsv)で結果を11月30日までにご提出いただきます。また提出時に、著作権違反等がないか確認するため、簡単にアプローチの紹介(どのような外部データ・外部ツール・文章を、どのように用いたかなど)をご報告いただきます。
予選においては、外部LLM(ChatGPT、BARD等)を使い利用料がかかった場合も、各種予算は自己負担となります。
予選においては、無料GUI版ChatGPT等を用い要素技術をご検討いただく形だけでも構いません。その場合、フォーマットに従わなくともChatGPTなどに入力するプロンプト全体をお送りいただく形も可能とします(予算や技術の関係で外部LLMを使えない方向けの措置)。本戦では、直接インプットを読めるようにスクリプト化していただきたいと考えていますが、その方法等は要相談とします(スプリプト化する部分を実行委員会有志で協力するなど)。
提出いただいた問題は、提出者の名前/団体名を伏せた上で、実行委員会の徳久倫康が700点満点で評価します。得点上位10位程度まで(確保できた予算や協力企業との交渉で決定)を本戦進出とする予定です。また、審査結果は各問題への点数を含め公表予定です。プロンプト自体をお送りいただいた場合、実行委員で「内容を踏まえ伸びしろが大きいか否か」「プロンプトで独自の工夫がみられるか」などの点で審査を行い、本選進出とする場合があります。
【本戦】2024年1月17日(水)(最終報告会の約10日前)
予選通過者にある時間にZOOMでお集まりいただき、インプットデータを送付します。参加者はZOOMで1時間以内に計算を実施し、アウトプットを返信してください。(インプットデータ公開後,規定時間(1時間以内を予定)以内に解答が投稿されなければ時間切れと判定します.)
予選と同じ評価手法で、700点満点で得点をつけ、合計得点の上位3人が最終報告会における決勝戦に進出します。
本戦及びその準備においては、外部商用LLMの利用券や利用料の提供を行うことを検討しています。ただし、予算充当のために何らかの研究報告が必要になる可能性があるため、利用券や利用料の供与を受けた取り組みは、入力に用いたプロンプトやアルゴリズムを公開Web等でご報告いただくことを義務とする場合があります。詳細は後日お知らせします。
【決勝戦】2024年1月26日(金)(最終報告会と同日)
本戦上位3人が前週に生成したクイズを、招待したゲスト審査委員(クイズプレイヤー・クイズ作家さんたち)に、早押しクイズ形式で解いていただきます。クイズプレイヤーたちにはその問題が「イベントが盛り上がる問題だったか」について審査をしていただきます。本戦との合計点で、最終的な優勝者を決定します。
本戦上位3人は、クイズの発表順を上位から決めることができます。
本戦において生成した20問のクイズから、徳久による手動審査の結果評価の高かった上位10問を抽出し、審査委員に出題します。(同点評価の場合、徳久による比較で評価が高い問題を抽出します)
ゲスト審査委員には、提示する基準のもと、3つのうちどの問題が「最もイベントが盛り上がる問題だったか」を選んでいただきます。一人が選ぶごとに、本戦の点数に30点を加算します。(最大90点加算)
最終報告会において、上位3位に入った方は、アプローチ等の説明時間を設けます。発表に協力いただけるとありがたいです。また、4位以下でも、ご協力いただける方には発表をお願いしたいと考えております。
評価方法
評価指標
人力による評価となります。評価基準は以下とし、生成結果を700点満点で評価します。(pdf)
今回は実行委員会の徳久倫康が、参加団体名を隠した状態で、同じ基準で一人で採点を行います。(評価者を増やすのは、第2回以降で検討します。)
以下、ベースラインモデルで作成した問題群(注:公開より古いバージョンに対して評価しているため、生成された問題文がベースラインモデルでアップロードされているものと異なります)に対しての、徳久による評価結果(Excel)です。
予選評価結果
各問題群について、700点満点で採点した結果です。(excel)
ルール
利用可能なツールに関するルール
提示されたインプットを直接読み取って、自動出力するツールを最終的に作成していただきます。
「早押し解答部門」と異なり、サーバー等は各自の環境でご用意いただき、各環境で計算いただいた上で結果をご提出いただく予定です。(ただし、本戦以降は実行委員会でサーバーを用意する可能性もございます)
「早押し解答部門」と異なり、クラウドサービスで展開される商用LLM(ChatGPT, BARD等)を使用しても構いません。ただし、広く公開されているものを使うものとし、かけてよいコストは月額料金で3000円程度(ChatGPTPlusまで)、1問あたりの生成は1円以内を目安としてください。(過度な投資競争を防ぐためです。)
もちろん、商用LLMを用いず、独自モデル構築する手法を取っても構いません。
単一計算機で完結しないモデルを使った場合、提出時に何を使ったかを明示していただきます。
利用可能データセット/テキスト/モデルに関するルール
利用可能なデータセット/テキスト/モデルは、一般公開されているもののみとします.一部のユーザーしか使えないデータなどを使ったシステムは評価対象外とします.有償公開のものも使用できますが、利用料等を踏まえ最終的に「月額コストは3000円程度まで、1問当たりの生成コストが1円以内」になるようなツールに限ることにします。
ただし,独自に作成したデータやモデルであっても,無償・有償を問わず、一般公開すれば利用可能となります.他の組織でも結果を再現できるか,というのが一つの目安となります.
ただし、著作権への留意をお読みください。
利用可能なデータの例
JAQKETの訓練データ・開発データ
参加者が独自にダウンロードしたWikipediaのデータ(これをもとに生成したクイズを公開する場合、適切な表示を行うことが条件)
※ 本コンペ限定で教師データや元ネタとして入力としてよいテキストデータやクイズ問題の許可を得られましたら、こちらに追加いたします。ご協力いただける文章の著作者の方は、トップページの連絡先までご連絡ください。
No private sharing outside team ルール
チーム外の他の参加者と、本コンペのフォーラム以外のプライベートな場において、コードやデータなどを共有することや、戦略などについて具体的な議論を行うことを禁止します。 このルールは本戦の課題送付後や、最終報告会でのライブコンペにのみ適用されます。
チーム人数は最大で5人です(チーム作成方法はこちら)。
著作権への留意
一般ユーザーが使用できる公開LLM(商用含む)が出力する表現は、使用してよいルールとします。 LLMが出力する表現が、もととなった文章の著作権違反を起こしてないかについては議論が分かれているところです。今回は、公開LLMのデータはユーザーが制御できないものであり、研究目的に限った上で使用したツールを明示することで対応します。
Wikipediaで用いられている文章表現から直接クイズを作成した場合、そのクイズがWikipedia文章の二次著作物となる場合があるため、出力されたクイズ公開時はWikipediaの示す「クリエイティブ・コモンズ 表示-継承 3.0 非移植」に従い、適切な表示を行ってください。
Wikipedia以外の文章やデータを入力として利用する際は、このページで明確に許諾を得られたサイトを除き、一般的な著作権法に従った利用をお願いします。著作者の二次利用許諾を得られていない文章表現が、生成されたクイズ問題文に組み込まれないよう留意して下さい。
著作物の定義「思想又は感情を創作的に表現したものであって、文芸、学術、美術又は音楽の範囲に属するものをいう。(著作権法第2条第1項第1号)」を踏まえ、事実に相当する単語を抜き出し、自然言語処理等で適切に接続詞等によりつなぐことは問題ない可能性が高いですが、「思想又は感情を創作的に表現した」文章そのものをクイズに組み込むことは著作権法上の引用の要件を満たさない限り難しいと解釈できます。また、著作物をクイズ文章の生成に直接使わず「ファクトチェックに使う」用途だけであれば、著作物の利用にあたらないと解釈できます。
皆様に作成いただいたコードやモデルは、作成した皆様が権利を有します。非公開・公開等は自由ですが、今後の技術の発展のため、緩めのライセンスでGit-Hubなどを通じた公開をしていただけるとありがたいです。
ベースラインシステム
実行委員会の森岡が作成した、OpenAI APIを用いたベースラインモデルです。 MITライセンスで公開されているため、これをベースに開発を行っても構いません。
問題評価/審査担当
予選・本戦評価担当
徳久 倫康 氏
(株式会社baton)
(株式会社baton)
早稲田大学文化構想学部卒業。QuizKnockを運営する株式会社batonに在籍。2023年にはクイズのオープン大会で通算100勝を達成している。著書に『クイズ用語辞典』(共著)。写真は「JQSグランプリシリーズ・グランプリファイナル」のもの。
最終報告会ゲスト審査委員
鶴崎 修功 氏
(QuizKnock)
(QuizKnock)
東京大学大学院数理科学研究科博士課程修了。QuizKnockには2016年の創設当初から在籍し、現在はYouTube動画に出演するほか、ゲームアプリの開発にも携わっている。競技プログラミングのコンテストでは、上位3%レベルのスコアを獲得したことがある。
仲野 隆也 氏
(株式会社キュービック)
(株式会社キュービック)
1966年、三重県津市出身。名古屋大学経済学部卒。クイズ研究会に所属し、第2代会長を務める。ジャパンFMネットワーク勤務を経て、2000年にクイズ作家として独立。クイズ制作会社・有限会社セブンワンダーズおよびクイズの総合商社・株式会社キュービック代表取締役。手がけたコンテンツに、TV『東大王』『Qさま‼』『タイムショック』、書籍『経済脳Qテスト』、マンガ『ナナマルサンバツ』、アプリ『黒猫のウィズ』などがある。
矢野 了平 氏
構成作家・クイズ作家。1977年埼玉県生まれ。高校・大学時代は『第4回高校生オープン』『パネルクイズアタック25』で優勝するなどクイズプレイヤーとしても活躍。その後構成作家となり、『水曜日のダウンタウン』『マツコ&有吉 かりそめ天国』『パンサー向井の#ふらっと』などのバラエティ番組を手掛ける一方、『くりぃむクイズミラクル9』『高校生クイズ』など多くのクイズ番組を手掛けた。『佐藤健&千鳥ノブよ!この謎を解いてみろ!』『今夜はナゾトレ』など謎解きブームの影の立役者でもある。