王小雪
高中學生: 已經有向量概念之中學生。
自然語言初學者: 希望了解語言任務的入門學習者。
本課程是語言模型領域的入門基礎單元,旨在幫助學習者理解語言模型背後所依據的語言學原理與資料轉換技術。課程從「語言是如何構成的?」這個核心問題出發,引導學員探索語言的結構組成、自然語言處理中語言學的角色,以及語言模型需要克服的語境理解與語義模糊等挑戰。
課程首先介紹語言學的五大核心面向(語音學、詞法學、語法學、語意學、語用學),並透過對應實例說明這些面向如何轉化為語言模型處理的資訊單位。接著聚焦於語言資料處理的兩項關鍵技術:
詞彙分割(Tokenization):說明人類語言如何被切分成模型可處理的最小單位,並解析中文分詞所面臨的多義性與無空格挑戰。
詞向量(Word Embedding):介紹如何將文字轉換為數值形式,並以「分佈假說」為基礎,理解語意相近的詞在向量空間中如何表現出相似性。
課程將運用簡單的語句(如「我喜歡蘋果」)作為引導,幫助學員思考語言中可能存在的語義模糊與語境差異,進一步認識模型在處理自然語言時所面對的限制與難題。
本課程適合對語言模型與自然語言處理有初步興趣的高中學生與大學初學者,特別適合希望理解「語言如何被電腦理解」的學員。課程不需程式背景,重點在於奠定後續學習深度模型的語言基礎知識。
單元 01|語言學
單元 02 | 語言資料處裡
認識語言學在自然語言處理中的理論角色,理解語言模型與語言結構之間的關聯。
了解自然語言的組成,包括語音、詞法、句法、語意與語用層次。
認識語言模型在處理語言時常見的挑戰,例如語意模糊、多義詞與語境依賴性。
掌握詞彙分割(Tokenization)的基本原理與中英文處理上的差異與困難。
了解詞向量(Word Embedding)的設計概念及其在語意表示上的優勢,並認識 Word2Vec 基本架構(CBOW 與 Skip-gram)。
單元目標:
了解語言學的五大構面(語音學、詞法學、語法學、語意學、語用學),並認識其在自然語言處理中的對應應用。
說明語言模型如何依賴語言學理論來處理詞彙、語法與語意資訊。
辨識語言模型在處理語言時常遇到的挑戰,如多義性、語境依賴、隱含意圖與常識推理不足。
舉例說明語言結構對語意判斷的影響,如相同詞彙在不同上下文中可能產生不同語意。
建立語言與模型之間的連結概念,為後續語言資料處理與深度模型學習奠定基礎。
單元目標:
說明自然語言轉換為模型輸入的基本流程,理解為何語言資料需進行結構化處理。
認識詞彙分割(Tokenization)在語言模型中的重要性,並比較中英文在分詞上的挑戰與策略差異。
了解不同的分詞方法,如最大匹配法、統計式模型(HMM、CRF)、子詞分割法(BPE、WordPiece)。
說明詞向量(Word Embedding)的核心概念,並理解其相較於 One-hot Encoding 的優勢。
辨識語意相近詞在向量空間中的關係,並初步理解 Word2Vec 中 CBOW 與 Skip-gram 的差異。
https://linguist.ccu.edu.tw/p/412-1232-2881.php?Lang=zh-tw
https://www.sharing.com.tw/pdf/8AD19/%E8%A9%A6%E8%AE%80.pdf
https://www.youtube.com/watch?v=nD_IWQmfIm8
https://tengyuanchang.medium.com/%E8%AE%93%E9%9B%BB%E8%85%A6%E8%81%BD%E6%87%82%E4%BA%BA%E8%A9%B1-%E7%90%86%E8%A7%A3-nlp-%E9%87%8D%E8%A6%81%E6%8A%80%E8%A1%93-word2vec-%E7%9A%84-skip-gram-%E6%A8%A1%E5%9E%8B-73d0239ad698
https://vocus.cc/article/68330fb1fd8978000158016b
https://vocus.cc/article/6471799dfd89780001604a5