08 文本標記與文本分析
- 劉昭麟:taiwandh(基本文本分析、統計與語境擷取工具)
- 中文內碼確認
- 詞頻分析
- 共現詞頻分析
- 共現詞頻與關係網絡(NodeXL)
- HTML與XML
- 什麼是標記語言?
- 標記有什麼用?
- TEI:一種XML標記語言
- 自動檢索分析與精確標註
- MARKUS
- 條件:上載純文字檔案(Unicode UTF-8)、只能用Google Chrome瀏覽器開啟。
- 文本大小:不超過5m的文檔,大於5m建議分割檔案。
- 網頁介面介紹:
- 右上角的「地球」選單可選擇中、英文介面。
- 右上角的「工具」包含:
- CBDB Lookup,使用時機「搜尋資料不全的人物」,如:文本中一位有姓氏、無名字、有官位職稱的人物。
- Sieve Online:線上的文本比較工具。
- 右上角的「標記與圖示解說」為MARKUS簡易的使用說明。
- 右上角的可以(1)檢視目前文本自動標記的類型與數量; (2)曾加標記類型:一開始自動標記為選擇的類型,可以於此再增加不同的標記類型。
- 右上角的「全文修改」與「標記總覽」:
- 左上角的「選單」按鍵,可隨時轉換「自動標記」、「手動標記」與「關鍵字標記」。
- 上方的,「存檔鍵」為暫存目前的資料,「輸出鍵」才是完整文檔目前的資料。怕資料遺失,標記到一半的文本資料還是「輸出」較保險。
- 進行自動標記:
- 標記說明:
- 表示此為CBDB未建置的人物,就算自行替它標記,底線仍不會消失,因為沒有輸入CBDB ID(人物識別碼)。
- 表示此人物符合CBDB的多筆資料,此時要自行擇選所需要的資料。
- 紅虛直線表示這個名稱(1)與上下文字重疊名稱時(2)分屬兩個(含以上)不同的標記類型。
- 以空行為分析單位
- 選擇朝代以減少一名多實的問題(一個名字,對應到多個對象)
- 標記完成後,再進行人工校正或閱讀
- 按下畫面右上方按鈕的最右邊一個圖示
- 人工校正
- 目的:修正自動標記的錯誤或選擇多項目的標記、填補遺漏的標記。
- 已自動標記的任何個例(字體放大,顏色改變),可以加以點擊,然後進行更多的操作:
- 圖示說明:
- 點選物件右邊欄的「書籍」圖示為核查參考資料按鈕,按下後可以參閱畫面右欄的參考資料。
- 點選物件右邊欄的「放大鏡」圖示可以找出點選物件在該文件中與點選物件相同的所有例子。
- 如果是人名、地名可以在點選物件的上邊欄看到CBDB或CHGIS的ID(識別碼)。
- 如果點選物件對應到多個ID,可以進行批次確認:
- 確認第一項用例後(利用點選的方式,把不正確的ID點掉),按旁邊的儲存鍵。儲存後,跳出視窗右邊會出現圓型綠底的打勾圖示。
- 捲到所有用例的最後,點選「全部套用」,即能進行批次的確認。
- 也可以進行批次刪除:
- 到跳出視窗的最後面,點選「刪除全部除了」(後有一鎖的圖示)。
- 也可以一個一個進行確認或刪除:
- 人工選取,然後儲存,或按下右邊的鎖定圖示(一個藍色圓圈,裏面一個勾)。
- 如果點選物件對應到多個ID,可以進行批次確認:
- 點選物件右邊欄的「垃圾桶」圖示可以取消標記。
- 閱讀平台
- 可以點選任何標記的字詞查找畫面右欄的參考資料。
- 也可以利用滑鼠選取字詞,然後點擊右鍵再點擊書籍的圖示,利用右欄的工具書來閱讀更多的相關資料。
- 如果你知道開放好用的資料庫,也可以跟MARMUS團隊聯繫,讓它們把這些資料庫做成右欄參考資料的選項,也可以用來標記特定的詞彙。
- 手動校讀:點選按鈕列倒數第二個編輯(一支筆在一個長方型之上)圖示,就可以進入手動編輯模式,更改內文。或利用它來區分「分析單位」(加一個空行)
- 手動標記:可以利用滑鼠選取文字後,點選內建標籤(姓名、別名、年號、地名、官職),將選取文字加以標記。
- 關鍵字標記(此部份可參看下方的「相關影音Hilde De Weerdt中文」的第57分40秒開始)
- 載入關鍵字/正規表示式
- 關鍵字,就是將自己想要查的詞彙一個以一行隔開搜尋
- 正規表示式(Regular Expression),此部份與Antconc正規表示式相同,能夠給予較為複雜的條件搜尋自己需要的關鍵字。
- 搜尋完的關鍵字結果,打上名稱、選擇顯示顏色,可在「標記總覽」查看自己設定的關鍵字名稱、顏色與結果數量。
- 關鍵字小幫手
- 與Antconc雷同,以關鍵字的上下文找出相關連的詞句,或是兩個關鍵字間的距離。
- 載入關鍵字/正規表示式
- →以「先生」為關鍵字,規定其左右綴詞字數為2,
- 即正規表示式:.{2}先生.{2}(或「..先生..」)
- →查詢「人」與「道」中間隔1到20字,
- 即正規表示式:人.{1,20}道
- 詞夾子
- 「載入關鍵字/正規表示」與「關鍵字小幫手」兩者是搜尋腦海中既有的關鍵字;「詞夾子」則是讓系統幫你找出可能感興趣的關鍵字,較適合使用篇幅大的文本,如:明清小說。
- 使用方式之一:
- 在「種子詞彙」輸入一個或多個字詞(一行一個詞彙),按「挖掘更多辭彙」。
- 挖掘出來的結果會出現在「發現的詞彙」,這個欄位所表示的便是相關於「種子辭彙」的其他關鍵字詞;此時介面下方的「種子夾子」也會出現結果,這個欄位則表示攸關於「發現的辭彙」在文本中發現的狀態/情況/上下文,因此可以根據這階結果,用滑鼠選取不要的刪除,留下一個或多個想要的情況,進一步限縮自己可能需要的關鍵字。
- 「種子夾子」中留下自己想要的關鍵字情況,按下右方的「夾取辭彙」,此時系統會依據這些關鍵字情況,在「發現的辭彙」欄位只留下跟這些情況相關的關鍵字,其餘的全部刪除。
- 再將「發現的辭彙」中自己需要的辭彙用滑鼠移到「保存辭彙」欄位,按下紅框「標記已保存的文字」,輸入標記名稱與顏色,按下「載入關鍵字」即可。
- 以上步驟如圖示:
- 段落篩選:
- 將標記好的文本「輸出」存在網頁格式的檔案。
- 回到MARKUS的啟始頁面,將剛輸出的檔案上載。
- 選擇頁面右下方的「段落篩選功能」。
- 輸入一個或多個CBDB人名識別碼,或選擇大於或小於某識別碼的所有人,以顯示或隱藏特別段落。(以空行為準。)
- 標記結果輸出
- 點選左邊功能列的「輸出」下載為網頁格式檔案,以便下一次的操作,或進行文本分析。
- 點選右欄功能按鈕中的「標記總覽」可以輸出標籤的計數。
- 進一步分析(配合其它工具):Excel、NodeXL等。
- 可能的問題:
- 不能抓出異體字。
- 以「空行」為段落單位,一般使用「Enter」的段落分行行不通,尚釐清。
- 教學影片(英文):http://dh.chinese-empires.eu/pioneer/video.html#switchOnOffMarkups
- 相關影片(Hilde De Weerdt中文):https://www.youtube.com/watch?v=NltG3EjC9_A
參考資料