科號Course No.:11320CL 535900
科目名稱Course Title:資料庫與文史研究
上課時間Time:T3T4Tn
授課老師Teacher:祝平次
學分Credit:3
教室Room:電腦教室(2)(如果能帶筆電,能增加學習效果,也方便學習。)
助教(Teaching Assistant):
辦公室時間:星期二、三下午1:30-3:30或事先約定。
(本課程的設計,為授課教師與Gemini、ChatGPT共同完成。)
本課程以台灣清華大學中文系研究所學生為對象,目的在於幫助修習本課程之同學能夠在之後,把資料庫當做重要的研究手段來從事自己的研究。台灣由於畫分課系過早,導致人文學科的同學對資料庫相對陌生,以至於無法利用資料庫這種強大的工具來進行研究。本課程以現在學界經常使用的《中國歷代人物傳記資料庫》(Chinese Biographical Database, CBDB)做為實例,以便讓修課的同學可以掌握地理資訊系統的使用,以及社會網絡分析的系統來增強自己研究量化的部分。這不但有利於人文學科擴展自己的研究領域,也可以促進人文學科跨領域的學習。 課程中,並將和生成式AI協作,以增強修課同學對於AI的使用,讓自己即使不會寫程式,也能得到之前必須寫程式才能得到的結果,以增強自己的研究量能。
四庫全書書目資料庫:開學後提供。我們將以這個資料庫,來探索不同類型的資料庫,與資料庫的各種功能,做為學期前半段的重。
https://projects.iq.harvard.edu/chinesecbdb/home:中國歷代人物傳記資料庫:這是由美國哈佛大學費正清研究中心、台灣中央研究院史語所、中國北京大學歷史系合作所完成的一個大型資料庫。我們將藉由這個資料庫,來探索將文史資料整理成一個資料庫後,可以進行的研究。
https://ctext.org/zh :中國哲學書電子化計劃(Chinese Text Project,CTP)
http://nlp.cse.ntou.edu.tw/CORPRO/:CORPRO 庫博中文獨立語料庫分析工具
https://www.youtube.com/watch?v=nSCDidg7m5I&t=6s:【AI新手必看2024】ChatGPT從入門到精通,23個使用技巧完整教程
https://www.youtube.com/watch?v=I_d3jPzS0Nk&t=1373s:GPT-4o:8 種應用解說、最適合大眾的免費 AI?進階語音功能,口譯助理、語言學習、學科解題家教
本課程要求修課同學,在電腦教室實際操作,並儘量利用與生成式AI的協作,來完成指定的作業。
第一部分:資料庫基礎知識與應用 (1-8週)
第1週(02-18):課程介紹
什麼是資料庫?為什麼要使用資料庫?
資料串聯
改變資料型態
圖表化
視覺化
資料庫的種類:關聯式與非關係式
透過圖形化介面操作資料庫 (如:Excel),讓同學對資料庫有初步的認識。
介紹常見的資料庫系統 (如:Access, Excel) 並進行簡單的資料輸入與查詢。
資料庫的四大功能:檢索、新增、刪除、改動
第2週(02-25):做為資料庫的單一表格
目的:讓同學熟悉Excel中和文史研究常用的功能。
表格的名稱
相對位置、絕對位置
字串的處理
利用判斷(if)來決定值
利用Excel樞紐分析表統計字、詞頻
CText ngram文字分析工具
斷詞的問題
分層統計
模糊比對
統整不同表格
資料庫的四大功能:檢索、新增、刪除、改動
第3週(03/04):資料庫查詢與分析
簡單的查詢語法:篩選、排序、分組
資料視覺化:利用 Excel 或 Google Sheets 製作簡單的圖表
介紹資料庫在文史研究中的應用場景,激發學生的學習興趣。
第4週(03/11):資料庫構想、資料庫的設計與建模
同學報告自己要建置什麼樣的資料庫
資料視覺化:利用 Excel 或 Google Sheets 製作簡單的圖表
介紹資料庫在文史研究中的應用場景。
介紹資料庫設計的基本概念:欄位、表格、關聯
使用簡單的工具 (如:Excel) 建構小型資料庫
了解資料庫正規化與資料完整性的重要性
第5週(03/18):資料整理與表格化(一)
中國哲學書電子化計畫文本分析平台
利用Regex(Regular Expression)檢索與取代
將文本整理成表格
利用AI來整理資料
第6週(03/25):資料整理與表格化(二)
同上
第7週(04/01):其它類型的資料庫XML
延伸性標記語言
網頁的標記語言HTML(HyperText Markup Language)
可展延標記語言XML(Extensible Markup Language)
TEI (Text Encoding Initiative)一種XML架構,已經有三十多年的歷史,可以被視為一種標準,專門為了文史學科的標記而創置。
第8週(04/08):其它類型的資料庫OWL知識本體庫
史丹福的protégé軟體:https://protege.stanford.edu
類型、個體、屬性(資料屬性)、關係(物件屬性)
將語言分析成三元結構的資料庫S(主詞)V(動詞)O(受詞)
知識圖譜、節點資料庫
廖安婷: 〈請銘與撰銘:以數位工具分析南宋碑誌文的人際網絡〉
第二部分:實作練習:哈佛大學中國歷代人物傳記資料庫 (09-14週)
第9-10週:中國歷代人物傳記資料庫初階運用
介紹中國歷代人物傳記資料庫
資料輸出與表格運用
第11-12週:中國歷代人物傳記資料庫進階運用
自定查詢
羣體傳記學(Prosopography)
社會網絡分析(Social Network Analysis)
地理資訊分析(GIS)
第13-14週:CBDB實做
學生分組進行專題研究,選擇一個感興趣的主題,利用所學的知識與工具進行資料蒐集與分析。
第15週(05/27)
期末進行專題報告,分享研究成果。
第16週(06/03)
期末進行專題報告,分享研究成果。
本課程為研究方法的訓練與運用,學期成績只有「通過」與「不通過」。