N-gram

維基百科的說明：N-gram
目的：統計連續字所形成詞組的數量：
- １的話：
  - 「蔡英文」會被統計成

「馬馬虎虎」會被統計成

詞組
馬
虎

數量
２
２

2的話：
- 「蔡英文」會被統計成

詞組
蔡英
英文

數量
1
1

「馬馬虎虎」會被統計成

3的話：
- 「蔡英文」會被統計成

詞組
蔡英文

數量
1

「馬馬虎虎」會被統計成

詞組
馬馬虎
馬虎虎

數量
1
1

選項：
- Value of n: 要選幾字的詞組。
- Minimum count: 顯示門嵌，只有在門嵌以上的數量才會被顯示。
- Normalize by length: 依照（總）長度標準化。
  - 沒有標準化之前會顯示詞頻，標準化之後則顯示百分比，亦即：詞頻 ∕ 總詞數 * 100。
- Exclude punctuation: 是否統計標點符號。
- Stop at breaks: 是否在某個特定點打斷詞組的計算
  - All：詞組不會跨過標點符號，例如「學而時習之，不亦說乎」的二字詞，將不會「之不」詞組的數量是 0 。
  - Paragraph：詞組不會跨過段落（亦即不會跨行）。
  - None：詞組會跨過標點符號和段落，例如「學而時習之，不亦說乎」的三字詞會出現「習之不」、「之不亦」等兩組詞。
- Tokenize by character: 是否以個別字元為單位（請參考劉昭麟〈中文斷詞基本資訊〉）
  - 因為英文詞與詞(word)之間有空格，所以可以以空格做為切割詞的標記，但中文沒有，所以會有在那裡切出一個詞的問題。如果勾選這個選項，系統會以字為單位去計算n-gram，如果沒有勾選，則會以標點符號做為切詞的標記。例如「學而時習之，不亦說乎」如果不勾選這個選項，則將被祝為前一個詞是「學而時習之」，後一個詞是「不亦說乎」。
  - 如果你的資料已經經過斷詞處理，則可以考慮不勾選這個選項進行分析。（請參考中央研究院「中文斷詞系統」）
舉例說明：
- 《論語》
- 《論語》與《孟子》

Report abuse