祝平次的教學網站

08 文本標記與文本分析

劉昭麟：taiwandh（基本文本分析、統計與語境擷取工具）
- 中文內碼確認
- 詞頻分析
- 共現詞頻分析
- 共現詞頻與關係網絡（NodeXL）
HTML與XML
- 什麼是標記語言？
- 標記有什麼用？
TEI：一種XML標記語言
- 中文使用指南
自動檢索分析與精確標註
MARKUS
1. 條件：上載純文字檔案(Unicode UTF-8)、只能用Google Chrome瀏覽器開啟。
2. 文本大小：不超過5m的文檔，大於5m建議分割檔案。
3. 網頁介面介紹：
  1. 右上角的「地球」選單可選擇中、英文介面。
  2. 右上角的「工具」包含：
    - CBDB Lookup，使用時機「搜尋資料不全的人物」，如：文本中一位有姓氏、無名字、有官位職稱的人物。
    - Sieve Online：線上的文本比較工具。

右上角的「標記與圖示解說」為MARKUS簡易的使用說明。

右上角的可以（1）檢視目前文本自動標記的類型與數量；（2）曾加標記類型：一開始自動標記為選擇的類型，可以於此再增加不同的標記類型。

右上角的「全文修改」與「標記總覽」：

左上角的「選單」按鍵，可隨時轉換「自動標記」、「手動標記」與「關鍵字標記」。
上方的，「存檔鍵」為暫存目前的資料，「輸出鍵」才是完整文檔目前的資料。怕資料遺失，標記到一半的文本資料還是「輸出」較保險。

進行自動標記：
1. 標記說明：

表示此為CBDB未建置的人物，就算自行替它標記，底線仍不會消失，因為沒有輸入CBDB ID（人物識別碼）。

表示此人物符合CBDB的多筆資料，此時要自行擇選所需要的資料。

紅虛直線表示這個名稱（1）與上下文字重疊名稱時（2）分屬兩個(含以上)不同的標記類型。

以空行為分析單位
選擇朝代以減少一名多實的問題(一個名字，對應到多個對象)
標記完成後，再進行人工校正或閱讀
按下畫面右上方按鈕的最右邊一個圖示

人工校正
1. 目的：修正自動標記的錯誤或選擇多項目的標記、填補遺漏的標記。
2. 已自動標記的任何個例（字體放大，顏色改變），可以加以點擊，然後進行更多的操作：
  1. 圖示說明：

點選物件右邊欄的「書籍」圖示為核查參考資料按鈕，按下後可以參閱畫面右欄的參考資料。
點選物件右邊欄的「放大鏡」圖示可以找出點選物件在該文件中與點選物件相同的所有例子。

如果是人名、地名可以在點選物件的上邊欄看到CBDB或CHGIS的ID（識別碼）。
1. 如果點選物件對應到多個ID，可以進行批次確認：
  1. 確認第一項用例後（利用點選的方式，把不正確的ID點掉），按旁邊的儲存鍵。儲存後，跳出視窗右邊會出現圓型綠底的打勾圖示。
  2. 捲到所有用例的最後，點選「全部套用」，即能進行批次的確認。
2. 也可以進行批次刪除：
  1. 到跳出視窗的最後面，點選「刪除全部除了」（後有一鎖的圖示）。
3. 也可以一個一個進行確認或刪除：
  1. 人工選取，然後儲存，或按下右邊的鎖定圖示（一個藍色圓圈，裏面一個勾）。
點選物件右邊欄的「垃圾桶」圖示可以取消標記。

閱讀平台
1. 可以點選任何標記的字詞查找畫面右欄的參考資料。
2. 也可以利用滑鼠選取字詞，然後點擊右鍵再點擊書籍的圖示，利用右欄的工具書來閱讀更多的相關資料。
3. 如果你知道開放好用的資料庫，也可以跟MARMUS團隊聯繫，讓它們把這些資料庫做成右欄參考資料的選項，也可以用來標記特定的詞彙。
手動校讀：點選按鈕列倒數第二個編輯（一支筆在一個長方型之上）圖示，就可以進入手動編輯模式，更改內文。或利用它來區分「分析單位」（加一個空行）
手動標記：可以利用滑鼠選取文字後，點選內建標籤（姓名、別名、年號、地名、官職），將選取文字加以標記。
關鍵字標記（此部份可參看下方的「相關影音Hilde De Weerdt中文」的第57分40秒開始）
1. 載入關鍵字/正規表示式
  1. 關鍵字，就是將自己想要查的詞彙一個以一行隔開搜尋
  2. 正規表示式(Regular Expression)，此部份與Antconc正規表示式相同，能夠給予較為複雜的條件搜尋自己需要的關鍵字。
  3. 搜尋完的關鍵字結果，打上名稱、選擇顯示顏色，可在「標記總覽」查看自己設定的關鍵字名稱、顏色與結果數量。
2. 關鍵字小幫手
  1. 與Antconc雷同，以關鍵字的上下文找出相關連的詞句，或是兩個關鍵字間的距離。

→以「先生」為關鍵字，規定其左右綴詞字數為2，
即正規表示式：.{2}先生.{2}(或「..先生..」)

→查詢「人」與「道」中間隔1到20字，
即正規表示式：人.{1,20}道

詞夾子
1. 「載入關鍵字/正規表示」與「關鍵字小幫手」兩者是搜尋腦海中既有的關鍵字；「詞夾子」則是讓系統幫你找出可能感興趣的關鍵字，較適合使用篇幅大的文本，如：明清小說。
2. 使用方式之一：
  1. 在「種子詞彙」輸入一個或多個字詞（一行一個詞彙），按「挖掘更多辭彙」。
  2. 挖掘出來的結果會出現在「發現的詞彙」，這個欄位所表示的便是相關於「種子辭彙」的其他關鍵字詞；此時介面下方的「種子夾子」也會出現結果，這個欄位則表示攸關於「發現的辭彙」在文本中發現的狀態/情況/上下文，因此可以根據這階結果，用滑鼠選取不要的刪除，留下一個或多個想要的情況，進一步限縮自己可能需要的關鍵字。
  3. 「種子夾子」中留下自己想要的關鍵字情況，按下右方的「夾取辭彙」，此時系統會依據這些關鍵字情況，在「發現的辭彙」欄位只留下跟這些情況相關的關鍵字，其餘的全部刪除。
  4. 再將「發現的辭彙」中自己需要的辭彙用滑鼠移到「保存辭彙」欄位，按下紅框「標記已保存的文字」，輸入標記名稱與顏色，按下「載入關鍵字」即可。
  5. 以上步驟如圖示：

段落篩選：
1. 將標記好的文本「輸出」存在網頁格式的檔案。
2. 回到MARKUS的啟始頁面，將剛輸出的檔案上載。
3. 選擇頁面右下方的「段落篩選功能」。
4. 輸入一個或多個CBDB人名識別碼，或選擇大於或小於某識別碼的所有人，以顯示或隱藏特別段落。（以空行為準。）
標記結果輸出
1. 點選左邊功能列的「輸出」下載為網頁格式檔案，以便下一次的操作，或進行文本分析。
2. 點選右欄功能按鈕中的「標記總覽」可以輸出標籤的計數。
3. 進一步分析（配合其它工具）：Excel、NodeXL等。
可能的問題：
1. 不能抓出異體字。
2. 以「空行」為段落單位，一般使用「Enter」的段落分行行不通，尚釐清。

教學影片(英文)：http://dh.chinese-empires.eu/pioneer/video.html#switchOnOffMarkups
相關影片(Hilde De Weerdt中文)：https://www.youtube.com/watch?v=NltG3EjC9_A

XAMPP與eXist db （在自己電腦上架網站）
簡單程式示範

參考資料

課程錄影：https://www.youtube.com/watch?v=xMMI0DQaN6Q
TEI
- 出入文字詮釋的人文學（從8分45秒開始）連結
- TEI全文資料標記：如何教電腦讀材料（影片）之一；之二；之三；之四
- 數位人文研習營（影片）之一；之二

Report abuse