授課老師:林晉宏、徐淑瑛、黃舒屏
這個課程將和大家一起學習如何將文字轉換為向量化資料的各種方法,建立在這個基礎之上,我們將利用各種機器學習的模型萃取出文字的主題、文本的分群分類。藉由學習自然語言處理的技術,共同發想可能的專案與應用,並反思自身學科的重要性。課程將涵蓋的主題有:
Python 程式基礎
分詞、詞形還原
資料預處理
主題模型
文本向量化
文本分群分類
場次:
2023/07/21 10:00~2023/07/21 12:00 2小時/0.1學分
2023/07/28 10:00~2023/07/28 12:00 2小時/0.1學分
2023/08/04 10:00~2023/08/04 12:00 2小時/0.1學分
2023/08/11 10:00~2023/08/11 12:00 2小時/0.1學分
2023/08/18 10:00~2023/08/18 12:00 2小時/0.1學分
Link for the meeting:
https://meet.jit.si/NSYSU-Jephian
本課程採線上授課,課程開始三天前會寄視訊會議的連結,如果三天前沒收到信,請檢查垃圾郵件夾、或與 Jephian Lin <jephianlin [at] gmail [dot] com> 聯絡。修課通過與否主要取決於課堂參與,所以請修課同學準備好視訊攝影機、麥克風、以及耳機。程式主要會在 Google Colab 上演示,無需準備高效能電腦。
各場次內容及教材:
各週課程將依實際教學進度調整
2023/07/21 10:00~2023/07/21 12:00 2小時/0.1學分
NLP Python basics [Colab] Python 基礎、字串處理、判斷字詞依賴性
NLP NumPy basics [Colab] NumPy 陣列處理、距離與相似性、tf-idf 文本特徵萃取
2023/07/28 10:00~2023/07/28 12:00 2小時/0.1學分
NLP pandas basics [Colab] pandas 表單處理、文本關鍵詞萃取
NLP scikit-learn basics [Colab] scikit-learn 通用介面、PCA 資料降維、k-means 分群
2023/08/04 10:00~2023/08/04 12:00 2小時/0.1學分
Use pretrained models [Colab] 使用預訓練模型、分詞、詞形還原
2023/08/11 10:00~2023/08/11 12:00 2小時/0.1學分
Topic modelling [Colab] 資料預處理、LDA 文本主題萃取
2023/08/18 10:00~2023/08/18 12:00 2小時/0.1學分
Document vectorization and clustering [Colab] 文本向量化、文本分群分類
以上課程內容及教材主要節錄自以下資源: