文件分析

Document Analysis

此技術包含:PDF、表格分析以及NLP處理。

在PDF分析中應用物件偵測技術將文件中的文字、圖片、表格辨識出來。

表格分析中會去解析圖片型態表格的結構,以轉換成結構化數據。

最後在NLP處理階段,將前述所獲得的文字以及結構化數據,經由模型訓練後,即可做到數據生成文本的任務(Data to Text generation)。