Table Data Extraction
(TDE)
Table Data Extraction (TDE):
TDEは、有価証券報告書に含まれる表を取り扱うために、表の構造を理解することを目的としたタスクです。表の構造の理解は、異なる企業間で比較可能な表を見つけ、項目と値の正しい組み合わせを抽出できるようになるばかりでなく、表を用いた質問応答や含意関係認識、ファクトチェックといった応用においても活用が見込まれます。
具体的には,有価証券報告書に含まれる表の各セルをMetadata、Header、Attribute、Dataの4種類のクラスに分類します。例えば、図に示すような表について、主キーとなる会社名が各行に記載され、名称や資本金といった属性が各列に記載されているということを認識した上でクラス分類を行います。このようなクラス分類が実現できると「[関係会社の状況] について,[ABC(株)] の [資本金] は [1億円] である」といった形式の文を生成できます。
Table Data Extraction (TDE):
TDE is a task aimed at understanding the structure of tables in order to deal with the tables contained in annual reports. An understanding of the structure of tables enables the user to find tables that are comparable across different companies and to extract the correct combination of items and values. It is also expected to be used in applications such as question answering, implication relation recognition and fact checking using tables.
Specifically, each cell of a table in a securities report is classified into four classes: Metadata, Header, Attribute and Data. For example, for the table shown in the figure, the class classification is based on the recognition that the company name, which is the main key, is listed in each row and attributes such as name and capital are listed in each column. If such a class classification can be achieved, a statement of the form "For [Status of affiliated companies], the [capital] of [ABC Ltd] is [100 million yen]" can be generated.
タスク定義
Input:
有価証券報告書に含まれる表 (HTML format)
TOPIX 100 の有報に含まれる表を対象とする
Output:
各セルをMetadata、Header、Attribute、Dataの4種類のクラスに分類
Evaluation:
TableごとのAccuracyのマクロ平均
Task description
Input:
Tables included in the annual report (HTML format)
Select target tables from the TOPIX 100
Output:
Classify each cell into four classes: Metadata, Header, Attribute and Data.
Evaluation:
Macro average of Accuracy per Table.
Examples