標記、統計與分析工作坊
Post date: Feb 6, 2015 6:44:12 AM
#成大文學院會議室位於光復校區東北角修齊大樓7樓,相關位置請參考校區平面圖。#興大資訊大樓位於校區東側,大學路與精勤路的交岔口,相關位置請參考校區平面圖。(桃紅色套色部分。)
講者:
講者:
Hilde De Weerdt (魏希德)教授(荷蘭萊頓大學中國史教授)
劉昭麟教授(政大資訊科學系特聘教授)
工作坊內容:
工作坊內容:
- 參加者請自備筆記型電腦。活動將於09:10開始報到。
上午場(魏希德教授)
MARKUS:文本標記與文史研究
MARKUS:文本標記與文史研究
09:30 - 12:30 (含實做)
數位工具對於人文學的研究,不只能進行巨量的統計、宏觀趨勢的分析,也能細緻的記錄過去文件的樣貌、研究者的成果和心得,讓數位人文學者可以任意地在宏觀與微觀之間自由移動,進行各式各樣的探索。要做到這點,其中一種方法就是文本標記;亦即,把文件中的重要資訊利用標記的方式以利於電腦的辨識,再在這樣的基礎上進行種種的利用。然而,大量的文本要如何進行標記,卻是一個大問題。如果利用人工進行不但曠日廢時,而且常常很難取得一致的標記成果,因此如何讓電腦進行自動標記也就成了資訊學者的一大課題。本次我們的講者魏希德要介紹的,就是一種自動標記的系統。她的團隊發展出的MARKUS(中文直譯為:標記我們吧!)一方面可以利用CBDB(由哈佛大學、北京大學、中研院史語所共同開發「中國歷代人物傳記資料庫」)對輸入的文本或檔案進行人名、地名、官職名、年號的標記;另一方面,也可以讓使用者輸入自己想要標記詞語的清單,然後進行標記;例如,你可以準備一張中藥名稱的清單,然後讓MARKUS把資料中的中藥名稱全部標記起來。MARKUS對於想要進行標記文本的文史研究者來講非常便利。歡迎大家參加本次的工作坊,並準備自己的文本進行實做;主辦單位也會準備一些測試文本,讓大家練習。
數位工具對於人文學的研究,不只能進行巨量的統計、宏觀趨勢的分析,也能細緻的記錄過去文件的樣貌、研究者的成果和心得,讓數位人文學者可以任意地在宏觀與微觀之間自由移動,進行各式各樣的探索。要做到這點,其中一種方法就是文本標記;亦即,把文件中的重要資訊利用標記的方式以利於電腦的辨識,再在這樣的基礎上進行種種的利用。然而,大量的文本要如何進行標記,卻是一個大問題。如果利用人工進行不但曠日廢時,而且常常很難取得一致的標記成果,因此如何讓電腦進行自動標記也就成了資訊學者的一大課題。本次我們的講者魏希德要介紹的,就是一種自動標記的系統。她的團隊發展出的MARKUS(中文直譯為:標記我們吧!)一方面可以利用CBDB(由哈佛大學、北京大學、中研院史語所共同開發「中國歷代人物傳記資料庫」)對輸入的文本或檔案進行人名、地名、官職名、年號的標記;另一方面,也可以讓使用者輸入自己想要標記詞語的清單,然後進行標記;例如,你可以準備一張中藥名稱的清單,然後讓MARKUS把資料中的中藥名稱全部標記起來。MARKUS對於想要進行標記文本的文史研究者來講非常便利。歡迎大家參加本次的工作坊,並準備自己的文本進行實做;主辦單位也會準備一些測試文本,讓大家練習。
相關連結:
相關連結:
MARKUS: Classical Chinese Text Analysis and Reading Platform
------------------------------------------------------------------------------------
下午場(劉昭麟教授)
TAIWANDH:計算、圖表與文本分析
TAIWANDH:計算、圖表與文本分析
14:00 - 17:00 (含實做)
數位科技的力量,一般被了解為具有強大的計算能力,因而時常被文史學者所忽略。然而,計算不但是文史工作者須常常面對的問題、從事的工作,也可能和我們潛藏的敘述判斷有所關聯。
數位科技的力量,一般被了解為具有強大的計算能力,因而時常被文史學者所忽略。然而,計算不但是文史工作者須常常面對的問題、從事的工作,也可能和我們潛藏的敘述判斷有所關聯。
在這次的工作坊中,劉昭麟老師將為我們展示如何聯結電腦的計算能力和文本分析的作業,並藉著圖表來視覺化種種分析的結果。劉老師在演示完後,也將分享他的程式碼,教我們如何自己動手做出類似的應用,以便大家可以把他的經驗和程式運用在自己的研究和教學。
在這次的工作坊中,劉昭麟老師將為我們展示如何聯結電腦的計算能力和文本分析的作業,並藉著圖表來視覺化種種分析的結果。劉老師在演示完後,也將分享他的程式碼,教我們如何自己動手做出類似的應用,以便大家可以把他的經驗和程式運用在自己的研究和教學。
- 電腦中文檔案的儲存(UTF8、BIG5、GB2312)
- 中文的斷詞、斷句
- 中文詞彙的時序分析
- 相關軟體安裝(Java)
- Google Chart 應用
- Excel 簡單案例
- 中文詞組的時序分析
- 分析角度面面觀
- 具體實作
相關連結: