テキスト・図表・画像から構成される「栽培暦」に対して、提示された質問に対して適切な回答を行うマルチモーダル質問応答タスクです。
■ 入力データ
以下のファイルと質問(クエリ)を入力とします。
栽培暦(画像): 栽培作物の栽培工程を地域の気候条件や作期に基づき時系列的に整理した農業技術資料
質問(クエリ): 具体的な質問文
■ 出力データ
回答の文字列 (回答は単語や短いフレーズにしてください。1文以上の長い形態や長い文章で記述することを禁止します。)
■ 評価指標
正解の回答とシステムの回答との文字列類似度(BLEU)、LLM-as-a-Judge
■ 入力データ(Train.jsonl)の例
{"question_id": "train_1", "file_name": "02-021-002_page_1.png", "question": "4月の「整枝剪定」で、小玉を少なくするために行う作業は何か。", "page": 1, "image_width": 1754, "image_height": 2481, "bbox": [1350.48, 254.75, 342.82, 61.55], "answer": "ハサミを使って着果部位を整える", "synthetic": true, "difficulty": "easy"}
画像ファイル(02-021-002_page_1.png)
■ 入力データ(Test.jsonl)の例
{"question_id": "test_1", "file_name": "01-020-001_page_1.png", "page": 1, "question": "幼穂形成期以降に許可されている施肥の種類は?"}
画像ファイル(01-020-001_page_1.png)
■ 出力データ(Test.jsonl)の例
{"question_id": "test_1", "answer": "倒状軽減"}