傳統的語言模型到現代的語言模型的進化史
-傳統的語言模型篇
-傳統的語言模型篇
呂昊謙
高中學生: 對人工智慧或電腦如何理解和處理語言感到好奇的高中生。
人工智慧初學者: 希望了解人工智慧領域中「自然語言處理」(NLP) 和「語言模型」基礎概念的入門學習者。
Ch 01|AI 如何開口說話?語言模型的序章
Ch 02 | N-Gram 的序列魔法(1) -語言的積木:從 1-gram 到 N-gram 的猜詞遊戲
Ch 03 | N-Gram 的序列魔法(2) -N-gram 如何計算、Google Books Ngram Viewer
Ch 04 | N-Gram 實戰:用 NLTK 探索詞語的奧秘
Ch 05 | N-Gram 的大顯神通與阿基里斯之踵
了解早期語言模型 N-gram 的核心概念與歷史背景。
學習 N-gram 模型預測下一個詞的原理與機率計算方法。
掌握使用 Google Ngram Viewer 觀察詞語搭配頻率的技巧。
學會運用 Python NLTK 套件實作 N-gram 模型進行文本分析與生成。
認識 N-gram 模型的實際應用場景及其主要限制。
單元目標:
了解本系列課程的學習藍圖。
單元目標:
回顧「Token」在語言模型中作為語義理解基本單位的概念。
初步認識語言模型預測下一個詞的基本直覺與 N-gram 的核心精神。
單元目標:
理解 N-gram 模型如何透過模式與技巧預測句子中接下來的詞彙。
學習 Unigram (1-gram) 的運作方式及其不考慮上下文的特性。
掌握 Bigram (2-gram) 如何利用前一個詞來預測下一個詞,並提升語意清晰度。
認識 Trigram (3-gram) 如何透過觀察前兩個詞來進行更精準的預測。
理解 N-gram 模型中 N 值大小對預測結果的可能影響。
單元目標:
學習如何統計語料庫中詞彙出現的頻率來計算 Unigram 的機率。
掌握利用條件機率計算 Bigram 中下一個詞出現的機率。
學會使用 Google Books Ngram Viewer 工具查詢與比較不同詞組的出現頻率。
了解除了選擇最高機率詞彙外,如何透過隨機抽樣或調整溫度 (temperature)、Top-K值來增加生成文本的多樣性。
單元目標:
學習如何使用 Python 的 NLTK 套件進行 N-gram 模型的建立與分析。
能夠運用 NLTK 計算 Unigram、Bigram、Trigram 的詞頻分佈。
實作根據 Bigram 計算特定詞彙後出現不同詞彙的條件機率。
實作利用 Bigram 模型進行文字接龍,生成連續文本序列。
透過作業練習,嘗試分析不同文本並觀察調整 N 值對 N-gram 模型的影響。
單元目標:
了解 N-gram 模型在文字生成、文本分析、輸入法建議、搜尋引擎提示及拼字校正等方面的實際應用。
認識 N-gram 模型面臨的零機率問題及解決思路。
理解 N-gram 難以捕捉長距離依賴關係的缺點。
理解 N-gram 缺乏對整體上下文理解能力的侷限性。
初步認識為克服 N-gram 缺點而發展出的後續模型。
Google Books Ngram Viewer
https://books.google.com/ngrams/
N-Gram 實戰: NLTK 範例程式碼
https://colab.research.google.com/drive/15LOkE7wuAn36cPFARRSPXweBqqAnUtH9?usp=sharing