เป็นการวิเคราะห์ข้อมูลในอดีต เพื่อหารูปแบบความสัมพันธ์ในชุดข้อมูลที่สามารถนำมาเป็นต้นแบบในการทำนาย การคาดการณ์ผล หรือสิ่งที่น่าจะเกิดขึ้นในอนาคต ซึ่งช่วยให้บุคคลหรือองค์กร สามารถตัดสินใจได้อย่างมีประสิทธิภาพ
การคาดการณ์โอกาสที่ฝนจะตก อาศัยประสบการณ์และการสังเกตลักษณะท้องฟ้า ความแรงของลมที่พัด ทำให้ตัดสินใจว่าควรพกร่มหรือชุดกันฝนติดตัวไปด้วยหรือไม่ หากฝนตกแล้วได้พกร่มหรือชุดกันฝนไปด้วย ช่วยทำให้เปียกฝนน้อยลง แสดงว่าการตัดสนใจนั้นมีประสิทธิภาพ
การทำนายเชิงตัวเลข (Numeric Prediction)
ใช้ข้อมูลในอดีตมาวิเคราะห์หาแนวโน้มเพื่อทำนายอนาคต ซึ่งผลลัพธ์ของการทำนายจะอยู่ในรูปตัวเลข เช่น
หากต้องไปต่างประเทศ ควรตรวจสอบอุณหภูมิของประเทศที่จะไปในช่วงเวลานั้นๆ เพื่อวางแผนการจัดเตรียมเสื้อผ้าได้อย่างถูกต้อง
เกษตรกร ชวนสวน ต้องคาดการณ์ปริมาณน้ำฝนล่วงหน้าจากข้อมูลปริมาณน้ำฝนในอดีต เพื่อนำมาวางแผนการเพาะปลูก
สถาบันการศึกษาต้องคาดการณ์จำนวนนักเรียนที่จะเข้าศึกษาต่อ เพื่อวางแผนการดำเนินงานไปปีการศึกษาถัดไป
การทำนายข้างต้น ทำได้โดยการนำข้อมูลในอดีต (สภาพอากาศ ปริมาณน้ำฝนในพื้นที่ หรือจำนวนนักเรียนที่เข้าศึกษาต่อในปีการศึกษาก่อนหน้า) มาวิเคราะห์หาความสัมพันธ์ระหว่างชุดข้อมูลและสร้างแบบจำลองในการทำนายที่ให้ผลลัพธ์เป็นตัวเลข ซึ่งโดยทั่วไปมีวิธีการทำนาย 2 วิธี คือ การทำนายโดยใช้กราฟ และการทำนายโดยใช้สมการเชิงเส้น
เมื่อข้อมูล 2 ชุด มีความสัมพันธ์เชิงเส้นต่อกัน สามารถทำนายชุดข้อมูลที่สนใจ (y) เมื่อทราบค่าชุดข้อมูลอีกชุดหนึ่ง (x) ที่สัมพันธ์กัน เช่น จากตัวอย่างจำนวนวัวป่า (x) กับจำนวนม้าลาย (y) หากต้องการประมาณค่าจำนวนม้าลายจากข้อมูลจำนวนวัวป่า ต้องทำการลากเส้นตรงผ่านจุดด่างๆ ในแผนภาพการกระจายให้มากที่สุด เรียกเส้นตรงดังกล่าวว่า “เส้นแนวโน้ม” และใช้เส้นแนวโน้มนี้ในการประมาณค่าจำนวนม้าลาย
เส้นแนวโน้ม (เส้นสีแดง) ลากผ่านจุดต่างๆ ในแผนภาพการกระจาย ของความสัมพันธ์จำนวนวัวป่ากับจำนวนม้าลาย
การทำนายค่าจากเส้นแนวโน้ม มีขั้นตอนดังนี้
สร้างแผนภาพการกระจาย – ทำให้ทราบรูปแบบความสัมพันธ์ของข้อมูลคร่าวๆ
ลากเส้นแนวโน้ม – ลากเส้นตรงผ่านจุดต่างๆ ที่อยู่บนแผนภาพการกระจายให้ได้จำนวนมากที่สุด (line of best fit) โดยจำนวนจุดที่อยู่เหนือเส้นและใต้เส้น ควรมีปริมาณใกล้เคียงกัน
3. ทำนายค่าจากเส้นแนวโน้ม
ประมาณค่าจากเส้นแนวโน้ม – ในที่นี้ให้ y เป็นค่าที่ต้องการทำนาย และ x เป็นข้อมูลที่ทราบค่า โดยให้กำหนดจุดที่ทราบค่าบนแกน x แล้วลากเส้นจากจุดนั้นขนานกับแกน y ไปตัดกับเส้นแนวโน้ม แล้วลากเส้นจากจุดตัดบนเส้นแนวโน้ม ขนานกับแกน x ไปตัดที่แกน y จะได้ค่า y ซึ่งเป็นค่าที่ต้องการทำนาย
ทำนายค่าโดยใช้สมการเชิงเส้น – เมื่อได้เส้นแนวโน้ม เราจะอาสมการเชิงเส้นของเส้นแนวโน้ม ในรูป y = mx + c
ก่อนที่จะนำสมการเส้นแนวโน้มไปใช้ในการทำนาย ต้องตรวจสอบความคลาดเคลื่อนของสมการเส้นแนวโน้มนี้ ซึ่งใช้วิธีการหาผลรวมของผลต่างยกกำลังสองของค่าจริงและค่าทำนาย (sum of squared errors)
หากค่าที่คำนวณได้ยิ่งน้อยเท่าไร แสดงว่ามีความคาดเคลื่อนน้อย เส้นแนวโน้มจะยิ่งทำนายได้ใกล้เคียงค่าจริงมาก
การทำนายค่าโดยใช้สมการเชิงเส้น (หากมีจำนวนวัวป่า 90 พันตัว จะมีจำนวนม้าลาย 114.023 พันตัว)
การทำนายเชิงหมวดหมู่ (Classification)
ใช้ข้อมูลที่มีความสัมพันธ์กัน มาทำนายข้อมูลที่ไม่ใช่ข้อมูลตัวเลข เพื่อจำแนกว่าผลลัพธ์จะอยู่ในกลุ่มหรือหมวดหมู่ใด เช่น การทำนายว่าฝนจะตกหรือไม่ (ตก, ไม่ตก) อาหารจานโปรด
(ต้มยำกุ้ง, ผัดไทย, กะเพราหมู) แนวเพลงที่ชอบ (แจ๊ส, ป๊อป, ร็อก, ลูกทุ่ง) ประเภทเครื่องดื่ม (น้ำอัดลม, น้ำผลไม้, เครื่องดื่ม
เกลือแร่) เป็นต้น
แนวคิดหลักในการทำนาย คือ ใช้ข้อมูลในอดีตที่มีการระบุหมวดหมู่มาแล้ว มาทำนายข้อมูลชุดใหม่ที่ยังไม่ทราบหมวด
หมู่ โดยจะขอกล่าวถึงการจัดหมวดหมู่ด้วยวิธีการค้นหาเพื่อนบ้าน
ใกล้เคียงที่สุด K ตัว (K-Nearest Neighbors: K-NN)
แนวคิดหลักในการทำนาย คือ ใช้ข้อมูลในอดีตที่มีการระบุหมวดหมู่มาแล้ว มาทำนายข้อมูลชุดใหม่ที่ยังไม่ทราบหมวด
หมู่ โดยจะขอกล่าวถึงการจัดหมวดหมู่ด้วยวิธีการค้นหาเพื่อนบ้าน
ใกล้เคียงที่สุด K ตัว (K-Nearest Neighbors: K-NN)
ในการประเมินความถูกต้องในการจำแนกข้อมูล ต้องนำผลลัพธ์จากการจำแนกหมวดหมู่ ไปทดสอบกับชุดข้อมูลที่ทราบ
คำตอบอยู่แล้ว ซึ่งมักเป็นข้อมูลชุดเดียวกันกับข้อมูลตั้งต้น แต่ถูกแยกเฉพาะเพื่อการประมาณ ตัวอย่างเช่น หากใช้ข้อมูลใน
อดีตของการเกิดไฟป่า มาทำนายการเกิดไฟป่าในอนาคต โดยอาศัยค่าอุณหภูมิเฉลี่ยและความชื้นสัมพันธ์ในวันนั้นๆ จำนวน
ข้อมูลการเกิดไฟป่าในอดีตมี 20 ตัวอย่าง อาจแบ่งข้อมูลสำหรับสร้างรูปแบบการทำนาย 13 ชุด และใช้ข้อมูลอีก 7 ชุด ในการ
ทดสอบความถูกต้อง ของผลลัพธ์การทำนายว่าเกิดไฟป่าหรือไม่
แหล่งอ้างอิงข้อมูล : https://itpoj.com/2020/08/14/data_analysis/