資訊科技微課程專案

傳統的語言模型到現代的語言模型的進化史
-傳統的語言模型篇

授課教師

呂昊謙

目標學習者

高中學生：對人工智慧或電腦如何理解和處理語言感到好奇的高中生。
人工智慧初學者：希望了解人工智慧領域中「自然語言處理」(NLP) 和「語言模型」基礎概念的入門學習者。

課程介紹

本課程是「語言模型進化史」系列的第一站，將帶領學員回到過去，探索語言模型最早期的英雄——N-gram 模型。雖然 N-gram 看似簡單，卻是後續更複雜語言模型的重要基礎。課程將從 AI 如何開口說話的趣味例子入手，深入解析 N-gram 的運作原理、計算方式，並實際操作 Google Ngram Viewer 及 Python NLTK 套件進行文本分析與生成，最後探討其應用與時代侷限性，為理解現代語言模型打下堅實的基礎。

本系列共設計了五堂課：

Ch 01｜AI 如何開口說話？語言模型的序章
Ch 02 | N-Gram 的序列魔法(1) -語言的積木：從 1-gram 到 N-gram 的猜詞遊戲
Ch 03 | N-Gram 的序列魔法(2) -N-gram 如何計算、Google Books Ngram Viewer
Ch 04 | N-Gram 實戰：用 NLTK 探索詞語的奧秘
Ch 05 | N-Gram 的大顯神通與阿基里斯之踵

課程目標

了解早期語言模型 N-gram 的核心概念與歷史背景。
學習 N-gram 模型預測下一個詞的原理與機率計算方法。
掌握使用 Google Ngram Viewer 觀察詞語搭配頻率的技巧。
學會運用 Python NLTK 套件實作 N-gram 模型進行文本分析與生成。
認識 N-gram 模型的實際應用場景及其主要限制。

【Ch 00】

課程介紹

單元目標：

了解本系列課程的學習藍圖。

【Ch 01】

AI 如何開口說話？語言模型的序章

單元目標：

回顧「Token」在語言模型中作為語義理解基本單位的概念。
初步認識語言模型預測下一個詞的基本直覺與 N-gram 的核心精神。

【Ch 02】

N-Gram 的序列魔法(1) -

語言的積木：從 1-gram 到 N-gram 的猜詞遊戲

單元目標：

理解 N-gram 模型如何透過模式與技巧預測句子中接下來的詞彙。
學習 Unigram (1-gram) 的運作方式及其不考慮上下文的特性。
掌握 Bigram (2-gram) 如何利用前一個詞來預測下一個詞，並提升語意清晰度。
認識 Trigram (3-gram) 如何透過觀察前兩個詞來進行更精準的預測。
理解 N-gram 模型中 N 值大小對預測結果的可能影響。

【Ch 03】

N-Gram 的序列魔法(2)

-N-gram 如何計算、Google Books Ngram Viewer

單元目標：

學習如何統計語料庫中詞彙出現的頻率來計算 Unigram 的機率。
掌握利用條件機率計算 Bigram 中下一個詞出現的機率。
學會使用 Google Books Ngram Viewer 工具查詢與比較不同詞組的出現頻率。
了解除了選擇最高機率詞彙外，如何透過隨機抽樣或調整溫度 (temperature)、Top-K值來增加生成文本的多樣性。

【Ch 04】

N-Gram 實戰：用 NLTK 探索詞語的奧秘

單元目標：

學習如何使用 Python 的 NLTK 套件進行 N-gram 模型的建立與分析。
能夠運用 NLTK 計算 Unigram、Bigram、Trigram 的詞頻分佈。
實作根據 Bigram 計算特定詞彙後出現不同詞彙的條件機率。
實作利用 Bigram 模型進行文字接龍，生成連續文本序列。
透過作業練習，嘗試分析不同文本並觀察調整 N 值對 N-gram 模型的影響。

【Ch 05】

N-Gram 的大顯神通與阿基里斯之踵

單元目標：

了解 N-gram 模型在文字生成、文本分析、輸入法建議、搜尋引擎提示及拼字校正等方面的實際應用。
認識 N-gram 模型面臨的零機率問題及解決思路。
理解 N-gram 難以捕捉長距離依賴關係的缺點。
理解 N-gram 缺乏對整體上下文理解能力的侷限性。
初步認識為克服 N-gram 缺點而發展出的後續模型。

課程教材

Google Books Ngram Viewer

https://books.google.com/ngrams/

N-Gram 實戰: NLTK 範例程式碼

https://colab.research.google.com/drive/15LOkE7wuAn36cPFARRSPXweBqqAnUtH9?usp=sharing

Page updated

Report abuse