https://l.pulipuli.info/25/8/dh
AI 輔助人文社會科學文本內容標註應用
國立政治大學 AI導入人文社科領域研究推動計畫
陳勇汀 博士研究員
pudding@nccu.edu.tw
國立政治大學 AI導入人文社科領域研究推動計畫
陳勇汀 博士研究員
pudding@nccu.edu.tw
範例展示
LLM文本標註框架
0. PDF拆分 PDF Arragner :將較長的PDF手動拆分成多個PDF檔案。或用瀏覽器上的列印功能,把PDF指定範圍列印成單獨的PDF檔案即可。
1. 原文抽取:將PDF掃描檔案裡面的原文抽取出來,存放成容易分析的HTMl網頁檔案格式。
2. 標註概念:將HTML裡面的原文,交給LLM標註出重要內容,以及分析背後的概念,最後儲存成ODS標註結果試算表檔案。
3. 聚合拆分:將多個ODS標註結果進行彙整,聚合相似的標註與概念、拆分同字但實質上不同的對象的標註與概念,最後儲存成ODS標註索引試算表檔案。
4. 索引網頁:以ODS標註索引試算表檔案建構成易於瀏覽的索引網頁。
範例檔案練習:取得以下檔案,上傳到Google Drive,從「2. 概念標註」開始操作
初次準備
申請Google Gemini API金鑰:Google AI Studio
申請教學(英文)
將待分析檔案上傳到Google Drive