08 文本標記與文本分析

  • 劉昭麟:taiwandh(基本文本分析、統計與語境擷取工具)
    • 中文內碼確認
    • 詞頻分析
    • 共現詞頻分析
    • 共現詞頻與關係網絡(NodeXL)
  • HTML與XML
    • 什麼是標記語言?
    • 標記有什麼用?
  • TEI:一種XML標記語言
  • 自動檢索分析與精確標註
  • MARKUS
    1. 條件:上載純文字檔案(Unicode UTF-8)、只能用Google Chrome瀏覽器開啟。
    2. 文本大小:不超過5m的文檔,大於5m建議分割檔案。
    3. 網頁介面介紹:
      1. 右上角的「地球」選單可選擇中、英文介面。
      2. 右上角的「工具」包含:
        • CBDB Lookup,使用時機「搜尋資料不全的人物」,如:文本中一位有姓氏、無名字、有官位職稱的人物。
        • Sieve Online:線上的文本比較工具。
        1. 右上角的「標記與圖示解說」為MARKUS簡易的使用說明。
      1. 右上角的可以(1)檢視目前文本自動標記的類型與數量; (2)曾加標記類型:一開始自動標記為選擇的類型,可以於此再增加不同的標記類型。
        1. 右上角的「全文修改」與「標記總覽」:
      1. 左上角的「選單」按鍵,可隨時轉換「自動標記」、「手動標記」與「關鍵字標記」。
      2. 上方的,「存檔鍵」為暫存目前的資料,「輸出鍵」才是完整文檔目前的資料。怕資料遺失,標記到一半的文本資料還是「輸出」較保險。
    1. 進行自動標記:
      1. 標記說明:
          1. 表示此為CBDB未建置的人物,就算自行替它標記,底線仍不會消失,因為沒有輸入CBDB ID(人物識別碼)。
              1. 表示此人物符合CBDB的多筆資料,此時要自行擇選所需要的資料。
              1. 紅虛直線表示這個名稱(1)與上下文字重疊名稱時(2)分屬兩個(含以上)不同的標記類型。
      1. 以空行為分析單位
      2. 選擇朝代以減少一名多實的問題(一個名字,對應到多個對象)
      3. 標記完成後,再進行人工校正或閱讀
      4. 按下畫面右上方按鈕的最右邊一個圖示
    1. 人工校正
      1. 目的:修正自動標記的錯誤或選擇多項目的標記、填補遺漏的標記。
      2. 已自動標記的任何個例(字體放大,顏色改變),可以加以點擊,然後進行更多的操作:
        1. 圖示說明:
          • 點選物件右邊欄的「書籍」圖示為核查參考資料按鈕,按下後可以參閱畫面右欄的參考資料。
          • 點選物件右邊欄的「放大鏡」圖示可以找出點選物件在該文件中與點選物件相同的所有例子。
          1. 如果是人名、地名可以在點選物件的上邊欄看到CBDB或CHGIS的ID(識別碼)。
            1. 如果點選物件對應到多個ID,可以進行批次確認:
              1. 確認第一項用例後(利用點選的方式,把不正確的ID點掉),按旁邊的儲存鍵。儲存後,跳出視窗右邊會出現圓型綠底的打勾圖示。
              2. 捲到所有用例的最後,點選「全部套用」,即能進行批次的確認。
            2. 也可以進行批次刪除:
              1. 到跳出視窗的最後面,點選「刪除全部除了」(後有一鎖的圖示)。
            3. 也可以一個一個進行確認或刪除:
              1. 人工選取,然後儲存,或按下右邊的鎖定圖示(一個藍色圓圈,裏面一個勾)。
          2. 點選物件右邊欄的「垃圾桶」圖示可以取消標記。
      1. 閱讀平台
        1. 可以點選任何標記的字詞查找畫面右欄的參考資料。
        2. 也可以利用滑鼠選取字詞,然後點擊右鍵再點擊書籍的圖示,利用右欄的工具書來閱讀更多的相關資料。
        3. 如果你知道開放好用的資料庫,也可以跟MARMUS團隊聯繫,讓它們把這些資料庫做成右欄參考資料的選項,也可以用來標記特定的詞彙。
      2. 手動校讀:點選按鈕列倒數第二個編輯(一支筆在一個長方型之上)圖示,就可以進入手動編輯模式,更改內文。或利用它來區分「分析單位」(加一個空行)
      3. 手動標記:可以利用滑鼠選取文字後,點選內建標籤(姓名、別名、年號、地名、官職),將選取文字加以標記。
      4. 關鍵字標記(此部份可參看下方的「相關影音Hilde De Weerdt中文」的第57分40秒開始)
        1. 載入關鍵字/正規表示式
          1. 關鍵字,就是將自己想要查的詞彙一個以一行隔開搜尋
          2. 正規表示式(Regular Expression),此部份與Antconc正規表示式相同,能夠給予較為複雜的條件搜尋自己需要的關鍵字。
          3. 搜尋完的關鍵字結果,打上名稱、選擇顯示顏色,可在「標記總覽」查看自己設定的關鍵字名稱、顏色與結果數量。
        2. 關鍵字小幫手
          1. 與Antconc雷同,以關鍵字的上下文找出相關連的詞句,或是兩個關鍵字間的距離。
              1. →以「先生」為關鍵字,規定其左右綴詞字數為2,
              2. 即正規表示式:.{2}先生.{2}(或「..先生..」)
            1. →查詢「人」與「道」中間隔1到20字,
            2. 即正規表示式:人.{1,20}道
      1. 詞夾子
        1. 「載入關鍵字/正規表示」與「關鍵字小幫手」兩者是搜尋腦海中既有的關鍵字;「詞夾子」則是讓系統幫你找出可能感興趣的關鍵字,較適合使用篇幅大的文本,如:明清小說。
        2. 使用方式之一:
          1. 在「種子詞彙」輸入一個或多個字詞(一行一個詞彙),按「挖掘更多辭彙」。
          2. 挖掘出來的結果會出現在「發現的詞彙」,這個欄位所表示的便是相關於「種子辭彙」的其他關鍵字詞;此時介面下方的「種子夾子」也會出現結果,這個欄位則表示攸關於「發現的辭彙」在文本中發現的狀態/情況/上下文,因此可以根據這階結果,用滑鼠選取不要的刪除,留下一個或多個想要的情況,進一步限縮自己可能需要的關鍵字。
          3. 「種子夾子」中留下自己想要的關鍵字情況,按下右方的「夾取辭彙」,此時系統會依據這些關鍵字情況,在「發現的辭彙」欄位只留下跟這些情況相關的關鍵字,其餘的全部刪除。
          4. 再將「發現的辭彙」中自己需要的辭彙用滑鼠移到「保存辭彙」欄位,按下紅框「標記已保存的文字」,輸入標記名稱與顏色,按下「載入關鍵字」即可。
          5. 以上步驟如圖示:
    1. 段落篩選:
      1. 將標記好的文本「輸出」存在網頁格式的檔案。
      2. 回到MARKUS的啟始頁面,將剛輸出的檔案上載。
      3. 選擇頁面右下方的「段落篩選功能」。
      4. 輸入一個或多個CBDB人名識別碼,或選擇大於或小於某識別碼的所有人,以顯示或隱藏特別段落。(以空行為準。)
    2. 標記結果輸出
      1. 點選左邊功能列的「輸出」下載為網頁格式檔案,以便下一次的操作,或進行文本分析。
      2. 點選右欄功能按鈕中的「標記總覽」可以輸出標籤的計數。
      3. 進一步分析(配合其它工具):Excel、NodeXL等。
    3. 可能的問題:
      1. 不能抓出異體字。
      2. 以「空行」為段落單位,一般使用「Enter」的段落分行行不通,尚釐清。

參考資料

  • 課程錄影:https://www.youtube.com/watch?v=xMMI0DQaN6Q
  • TEI