CText TextTools

  • 網址:https://ctext.org/
  • 語言:可以在首頁頁面左上方點選「中文版」進入中文介面。
  • 登入與註冊:請利用頁面左下方「登入」註冊新的使用帳戶,或登入已有的帳戶。
    • 登入後可以直接在使用數位工具時,直接匯入數位文本。
  • 數位工具頁面:https://ctext.org/plugins/texttools/
  • 置入文本:
    • 從CText直接擷取("Fetch")文本(Fetch text by URN):
      • 輸入URN,然後點擊「Fetch」鈕執行。系統會自動帶出文本標題
      • URN 在每個文本資料頁面的右下方,以「ctp:」開頭,例如《論語》的URN是「ctp:analects」,《論語.學而篇》是「ctp:analects/xue-er」,《荀子》是「ctp:xunzi」。
    • 直接貼入文本區,在「Title:」後的文字欄位輸入自訂標題
  • 點擊「Save/add another text」暫存置入文本,以進行功能操作。
    • 可以重覆「置入文本」=》暫存步驟,以暫存更多的文本。
    • 由於可以自行置入文本,我們也可以將自己的資料和CText資料庫的資料進行綜合分析。
  • 以下介紹各種功能的操作:
  • N-gram
    • 目的:統計連續字所形成詞組的數量:
      • 1的話:
        • 「蔡英文」會被統計成
        • 「馬馬虎虎」會被統計成
                  • 詞組
                  • 數量
      • 2的話:
        • 「蔡英文」會被統計成
                  • 詞組
                  • 蔡英
                  • 英文
                  • 數量
                  • 1
                  • 1
        • 「馬馬虎虎」會被統計成
      • 3的話:
        • 「蔡英文」會被統計成
                  • 詞組
                  • 蔡英文
                  • 數量
                  • 1
        • 「馬馬虎虎」會被統計成
                  • 詞組
                  • 馬馬虎
                  • 馬虎虎
                  • 數量
                  • 1
                  • 1
    • 選項:
      • Value of n: 要選幾字的詞組。
      • Minimum count: 顯示門嵌,只有在門嵌以上的數量才會被顯示。
      • Normalize by length: 依照(總)長度標準化。
        • 沒有標準化之前會顯示詞頻,標準化之後則顯示百分比,亦即:詞頻 ∕ 總詞數 * 100。
      • Exclude punctuation: 是否統計標點符號。
      • Stop at breaks: 是否在某個特定點打斷詞組的計算
        • All:詞組不會跨過標點符號,例如「學而時習之,不亦說乎」的二字詞,將不會「之不」詞組的數量是 0 。
        • Paragraph:詞組不會跨過段落(亦即不會跨行)。
        • None:詞組會跨過標點符號和段落,例如「學而時習之,不亦說乎」的三字詞會出現「習之不」、「之不亦」等兩組詞。
      • Tokenize by character: 是否以個別字元為單位(請參考劉昭麟〈中文斷詞基本資訊〉
        • 因為英文詞與詞(word)之間有空格,所以可以以空格做為切割詞的標記,但中文沒有,所以會有在那裡切出一個詞的問題。如果勾選這個選項,系統會以字為單位去計算n-gram,如果沒有勾選,則會以標點符號做為切詞的標記。例如「學而時習之,不亦說乎」如果不勾選這個選項,則將被祝為前一個詞是「學而時習之」,後一個詞是「不亦說乎」。
        • 如果你的資料已經經過斷詞處理,則可以考慮不勾選這個選項進行分析。(請參考中央研究院「中文斷詞系統」)