授課老師:鍾思齊、黃舒屏、林晉宏、徐淑瑛
自然語言處理中很重要的一環是將文字轉換成一組數字表示的向量以利後續相關性比較或各種統計推論、機器學習處理。這樣的技術需要對語言本身的理解與對數字的數感。本課程前半部分將介紹Python程式的基礎與相關工具庫,後半部分則預計運用現有模型進行詞性標記、語法剖析等自然語言處理應用,預計將規劃以下主題:
Python 程式基礎
程式工具庫 (NumPy, Pandas, Sklearn)介紹
資料前處理
文本向量化
自然語言處理基本技術簡介 (斷詞處理、詞性標記、語法剖析等)
場次:
2024/07/26 10:00~2024/07/26 12:00 2小時/0.1學分
2024/08/02 10:00~2024/08/02 12:00 2小時/0.1學分
2024/08/09 10:00~2024/08/09 12:00 2小時/0.1學分
2024/08/16 10:00~2024/08/16 12:00 2小時/0.1學分
Link for the meeting:
https://meet.google.com/bsn-jacz-zhr (7/26, 8/2, 8/16的課程)
https://meet.google.com/oko-gdxa-qud (8/9的課程)
本課程採線上授課,課程開始三天前會寄視訊會議的連結,如果三天前沒收到信,請檢查垃圾郵件夾、或與 phonchi chung<steve2003121 [at] gmail [dot] com> 聯絡。修課通過與否主要取決於課堂參與,所以請修課同學準備好視訊攝影機、麥克風、以及耳機。程式主要會在 Google Colab 上演示,無需準備高效能電腦。
各場次內容及教材:
各週課程將依實際教學進度調整
2024/07/26 10:00~ 2024/07/26 12:00 2小時/0.1學分
NLP Python basics [Colab] Python 基礎、字串處理、判斷字詞依賴性
NLP NumPy basics [Colab] NumPy 陣列處理、距離與相似性、tf-idf 文本特徵萃取
2024/08/02 10:00~ 2024/08/02 12:00 2小時/0.1學分
NLP pandas basics [Colab] pandas 表單處理、文本關鍵詞萃取
2024/08/09 10:00~ 2024/08/09 12:00 2小時/0.1學分
NLP scikit-learn basics [Colab] scikit-learn 通用介面、PCA 資料降維、k-means 分群
2024/08/16 10:00~ 2024/08/16 12:00 2小時/0.1學分
Use pretrained models [Colab] 使用預訓練模型、分詞、詞形還原