Table QA(TQA)タスクは、有価証券報告書に含まれる単一の表から、質問の答えに該当する値を抽出するタスクです。
入力:質問文(question)、有報HTMLの表(table_id)
出力:値(value)または、セル(cell_id)
評価:Accuracy
questions_tqa.jsonのテンプレート
{
"question_train2": {
"question": "大和ハウス工業の2019年の個別のShareholdersEquityにおける「自己株式の処分」を示すセルは?",
"table_id": "S100ITAZ-0000000-tab1",
"cell_id": "S100ITAZ-0000000-tab1-r1c1",
"value": "1033000000000"
},
}
このテンプレートは、以下の構成となります。
question_id (object)
question_{データの種類}{通し番号}
データの種類は、train、valid、testのいずれかが適用されます。
通し番号が各タスクで連続していませんが、これはタスク間で質問文の重複を防ぐためです。
table_id (str)
{doc_id}-{HTMLファイル番号(数字7桁)}-tab{通し番号}
タスクオーガナイザにより、有報HTMLに付与されたIDです。
HTMLのtableタグに、table-id属性として付与されています。
cell_id (str)
{TableID}-r{行番号}c{列番号}
タスクオーガナイザにより、有報HTMLに付与されたIDです。
HTMLのthタグとtdタグに、cell-id属性として付与されています。
value (str)
有報XBRLから取得した値をそのまま用いています。
valueが数値の場合は単位が反映されているため、HTMLのセルに含まれる文字列と完全一致しない点に注意してください。