Table Retrieval(TR)タスクは、単一の文書(有価証券報告書)から、質問の答えに該当する値が含まれる表を検索するタスクです。
入力:質問文(question)、有報HTML(doc_id)
出力:表(table_id)
評価:Accuracy
questions_tr.jsonのテンプレート
{
"question_train1": {
"question": "大和ハウス工業の2019年の個別のShareholdersEquityにおける「自己株式の処分」を含む表は?",
"doc_id": "S100ITAZ",
"table_id": "S100ITAZ-0000000-tab1"
},
}
このテンプレートは、以下の構成となります。
question_id (object)
question_{データの種類}{通し番号}
データの種類は、train、valid、testのいずれかが適用されます。
通し番号が各タスクで連続していませんが、これはタスク間で質問文の重複を防ぐためです。
question: 質問文 (str)
クエリとして用いられる質問文です。
企業名、期間、項目名(検索対象)については、全ての質問に必ず含まれます。
個別・連結要素とメンバー要素については、XBRLに記載がある場合のみ含まれます。
doc_id (str)
S100{英大文字4桁}
EDINETにより付与された書類番号です。
table_id (str)
{doc_id}-{HTMLファイル番号(数字7桁)}-tab{通し番号}
タスクオーガナイザにより、有報HTMLに付与されたIDです。
HTMLのtableタグに、table-id属性として付与されています。