หน่วยที่ 3 การวิเคราะห์ข้อมูล
3.3 การวิเคราะห์เชิงทำนาย (เชิงหมวดหมู่)
หน่วยที่ 3 การวิเคราะห์ข้อมูล
3.3 การวิเคราะห์เชิงทำนาย (เชิงหมวดหมู่)
การทำนายเชิงหมวดหมู่ คือ การทำนายข้อมูลที่สนใจที่ไม่ใช่ข้อมูลตัวเลข จากข้อมูลอีกชุดหนึ่งที่มีความสัมพันธ์กัน เช่น การทำนายว่า ฝนจะตกหรือไม่ (ตก หรือไม่ตก) อาหารโปรด (ต้มยำกุ้ง ผัดไทย กะเพราไก่) แนวเพลงที่ชอบ (Jazz, Pop, Rock, R&B) ประเภทเครื่องดื่ม (น้ำอัดลม น้ำผลไม้) เป็นต้น แนวคิดหลักในการทำนาย คือ ใช้ข้อมูลในอดีตที่มีการระบุหมวดหมู่มาแล้ว เพื่อทำนายข้อมูลชุดใหม่ที่ยังไม่ทราบหมวดหมู่ เทคนิคที่ใช้ในการจัดหมวดหมู่นั้นมีหลากหลาย ในที่นี้จะกล่าวถึงการจัดหมวดหมู่ด้วยวิธีการค้นหาเพื่อบ้านใกล้เคียงที่สุด K ตัว (K-Kearest Neighbors: K-NN)
แนวคิดหลักของเทคนิคการค้นหาเพื่อนบ้านใกล้เคียงที่สุด K ตัว คือ การเทียบเคียงข้อมูลใหม่ที่ยังไม่ได้จัดหมวดหมู่กับข้อมูลเดิมที่ถูกจัดหมวดหมู่ไว้แล้ว ซึ่งการเทียบเคียงจะเทียบเคียงข้อมูลใหม่กับข้อมูลเดิมที่มีระยะห่างน้อยที่สุดก่อน แล้วเปรียบเทียบกับข้อมูลเดิมที่มีระยะห่างจากข้อมูลใหม่ถัดออกไปตามลำดับจนกระทั้งครบ K ตัว และใช้ข้อมูลดังกล่าวเพื่อระบุหมวดหมู่ให้กับข้อมูลใหม่ได้
การประเมินความถูกต้องในการจําแนกกลุ่มข้อมูลเพื่อทํานายผลในอนาคตเป็นสิ่งสําคัญมาก เพราะหากผลการทํานายผิดพลาดอาจเกิดความเสียหายเมื่อนําไปใช้จริงซึ่งการประเมินความถูกต้องควรนําไปทดสอบกับชุดข้อมูลที่ทราบคําตอบอยู่แล้ว ซึ่งมักเป็นข้อมูลชุดเดียวกันกับข้อมูลตั้งต้น แต่ถูกแยกไว้เฉพาะเพื่อการประเมิน ส่วนที่เหลือสามารถ นําไปใช้เป็นเครื่องมือในการทํานาย
กิจกรรมที่ 3.3 การวิเคราะห์เชิงทำนาย (เชิงหมวดหมู่)
เมื่อนักเรียนศึกษาจบเนื้อหาในหัวข้อที่ 3.3 การวิเคราะห์เชิงทำนาย(เชิงหมวดหมู่) แล้วปฏิบัติกิจกรรม "พวกนี้ พวกไหนดี"
กิจกรรมที่ 3.3
คำชี้แจง
นักเรียนเป็นนักออกแบบตัวละครในเกมออนไลน์ชื่อดังเกมหนึ่ง ซึ่งตัวละครในเกมนี้จะแบ่งเป็น 2 กลุ่ม ได้แก่ กลุ่มสายโจมตี และกลุ่มสายป้องกัน
ตัวละครกลุ่มสายโจมตี จะสามารถสร้างความเสียหายต่อวินาทีได้มาก แต่มีพลังชีวิตน้อย
ตัวละครกลุ่มสายป้องกัน จะสามารถสร้างความเสียหายต่อวินาทีได้น้อย แต่มีพลังชีวิตมาก
ให้นักเรียนจัดกลุ่มให้กับตัวละครใหม่ 2 ตัว ว่าควรจะอยู่กลุ่มใด
โดยมีชุดข้อมูลตัวละครที่มีอยู่ในปัจจุบัน ในไฟล์ "ข้อมูลตัวละคร" ดาวน์โหลดที่นี่🔗
ให้นักเรียนทำตามขั้นตอนดังนี้
1. จากชุดข้อมูลที่มีอยู่ปัจจุบัน ให้นักเรียนสร้างแผนภาพการกระจาย โดยกำหนดให้แกน X คือ ค่าพลังชีวิต และแกน Y คือ ค่าความเสียหายต่อวินาที
2. เพื่อจัดกลุ่มให้หมาล็อกกับตัวละครอื่นทุกตัว โดยใช้ สูตรในการคำนวณระยะทาง
= SQRT (((ค่าความเสียหายต่อวินาทีของตัวละครอื่น - ค่าความเสียหายต่อวินาทีของหมาล็อก) ^2) + ((พลังชีวิตของตัวละครอื่น - พลังชีวิตของหมาล็อก) ^2))
หมายเหตุ : SQRT แทน ฟังก์ชันการหาค่ารากที่สอง
^ แทน เครื่องหมายยกกำลัง
3. บันทึกระยะทางระหว่างตัวละครหมาล็อกกับตัวละครอื่นลงในตาราง (ทศนิยม 2 ตัวแหน่ง)
4. กำหนดกลุ่มให้หมาล็อก ตามกลุ่มที่มีจำนวนสมาชิกมากที่สุดในชุดข้อมูล K ลำดับ
K =3 , K=5 , K= 7, K=9
5. สรุปผลการวิเคราะห์ จะได้ว่า หมาล็อก จะอยู่ในกลุ่ม ? หมูราด จะอยู่ในกลุ่ม ?