Tokenization
Stop Words Removal
Stemming และ Lemmatization
เป้าหมายการเรียนรู้
อธิบายกระบวนการพื้นฐานของการประมวลผลข้อความได้
เขียนโค้ดเพื่อทำ Text Preprocessing ได้ทั้งภาษาไทยและภาษาอังกฤษ
วิเคราะห์ข้อแตกต่างระหว่าง Stemming และ Lemmatization
NLP Workflow และ NLP Pipeline เป็นกระบวนการที่อธิบายลำดับขั้นตอนในการประมวลผลข้อความด้วยเทคนิคการประมวลผลภาษาธรรมชาติ เพื่อแก้ปัญหาหรือวิเคราะห์ข้อความอย่างเป็นระบบ
NLP Workflow คือ ลำดับขั้นตอนสำคัญในการทำงานกับข้อความ ตั้งแต่เริ่มต้นจนได้ผลลัพธ์ที่ต้องการ โดยเน้นภาพรวมตั้งแต่ต้นจนจบของการพัฒนาเพื่อแก้ปัญหาทาง NLP โดยทั่วไปแบ่งออกเป็น 5 ขั้นตอนหลัก:
1.1 Data Collection
รวบรวมข้อมูลข้อความ (Text Documents) จากแหล่งต่าง ๆ เช่น
Social Media (Twitter, Facebook)
APIs (Google News, YouTube Comments)
ข้อมูลภายในองค์กร เช่น Email, Chat Logs
1.2 Text Preprocessing
เตรียมข้อมูลให้เหมาะสมสำหรับการวิเคราะห์
Cleaning: ลบข้อมูลที่ไม่จำเป็น เช่น HTML Tags, Emoji, สัญลักษณ์พิเศษ
Tokenization: แบ่งข้อความออกเป็น token โดย token อาจเป็นตัวอักษร พยางค์ คำ วลี หรือประโยค
Stop Words Removal: ลบคำที่ไม่สำคัญ เช่น is, the, and
Stemming/Lemmatization: ตัดคำให้เป็นรากศัพท์ (stem/lemma)
Lowercasing: แปลงข้อความให้เป็นตัวพิมพ์เล็ก
Normalization: ปรับข้อความให้อยู่ในรูปแบบที่เป็นมาตรฐาน เช่น เปลี่ยนตัวเลขเป็นข้อความ เปลี่ยนตัวย่อเป็นข้อความเต็ม จัดการข้อความ/ตัวอักษรซ้ำๆ
1.3 Exploring Data Analysis (EDA)
วิเคราะห์ข้อมูลโดยรวมจากข้อความ โดยสรุปข้อมูลเชิงสถิติและใช้กราฟในการวิเคราะห์ เช่น
Distribution of Categorical Data: วิเคราะห์จำนวนข้อมูลทั้งหมด แยกตามประเภท/คลาส
Dispersion Plot: วิเคราะห์การกระจายตัวของคำในข้อความ
Word Cloud: แสดงความถี่ของคำในข้อความโดยใช้รูปภาพ
1.4 Feature Engineering/Representation
แปลงข้อความให้อยู่ในรูปแบบที่โมเดลสามารถเข้าใจได้ เช่น
Bag of Words (BoW): นับคำที่ปรากฏในข้อความ
TF-IDF: ให้ค่าน้ำหนักคำโดยพิจารณาจากความสำคัญ
Word Embeddings: เช่น Word2Vec, GloVe, หรือ BERT
1.5 Model Training and Evaluation
สร้างโมเดลเรียนรู้จากข้อมูล เช่น
การจัดกลุ่ม (Clustering)
การจำแนกประเภท (Classification)
การสร้างข้อความ (Text Generation)
ใช้ชุดข้อมูลฝึก (Training Set) และชุดข้อมูลทดสอบ (Testing Set)
1.6 Deployment
นำโมเดล NLP ที่พัฒนาขึ้นไปใช้งานในระบบจริง โดยครอบคลุมขั้นตอน เช่น
การเตรียมสภาพแวดล้อม
การปรับแต่งโมเดลให้เหมาะสม
การผสานรวมกับระบบ/แอพพลิเคชันที่ใช้งานจริง
NLP Pipeline คือ กระบวนการทางเทคนิคในแต่ละขั้นตอนการประมวลผลข้อความ โดยระบุขั้นตอนย่อยในกระบวนการ NLP ที่ทำงานต่อเนื่องกันในลำดับที่กำหนดไว้อย่างชัดเจน โดยแต่ละขั้นตอนใช้ผลลัพธ์จากขั้นตอนก่อนหน้า
ตัวอย่าง NLP Pipeline ที่เป็นไปได้