การวิเคราะห์ข้อมูล
การวิเคราะห์ข้อมูล คือ การแปลงข้อมูลดิบให้เป็นข้อมูลเชิงลึกที่นำไปใช้ได้จริง ซึ่งรวมถึงเครื่องมือ เทคโนโลยี และกระบวนการมากมายที่ใช้ในการหาแนวโน้มและแก้ไขปัญหาโดยการใช้ข้อมูล หรือเป็นการเปลี่ยนข้อมูลให้มีคุณค่า โดยนำผลลัพธ์ที่ได้จากการวิเคราะห์มาใช้ประโยชน์ การวิเคราะห์ข้อมูลจะดำเนินการหล้งจากที่ได้รวมรวมข้อมูล ทำความสะอาดข้อมูล เชื่อมโยงข้อมูลที่มาจากหลายๆ แหล่งให้ถูกต้องตรงกัน และทำการสำรวจ ทำความเข้ารใจรูปแบบลักษณะการกระจายและภาพรวมของข้อมูล
เพื่อความเข้าใจการแนวคิดการวิเคราะห์ข้อมูลเบื้องต้น ให้นักเรียนศึกษาเนื้อหาในหนังสือเรียนวิชาเทคโนโลยี(วิทยาการคำนวณ) ชั้นมัธยมศึกษาปีที่ 5 หน้า 74-77 (สิงโตเจ้าปัญญา)
จากตัวอย่างจะเห็นได้ว่า สิงโตหาคำตอบโดยการวิเคราะห์ข้อมูลเพื่อดูสภาพรวมของป่าที่อาศัยอยู่ และใช้ข้อมูลในการทำนายจำนวนเหยื่อและการเกิดไฟป่าในอนาคต ซึ่งพิจารณาแล้วจะเห็นว่า การวิเคราะห์เกิดจากคำถาม 3 แบบ คือ "เกิดอะไรขี้น" "จะเกิดอะไรขั้น" และ "ควรจะทำอะไร"
คำถามทั้ง 3 ประเภท ดังกล่าว จะเป็นคำถามหลักที่มนุษย์ใช้ในการทำงานและดำรงชีวิตเช่นเดียวกัน ซึ่งการตอบคำถามทั้ง 3 แบบ สามารถหาได้จากการวิเคราะห์ข้อมูล 3 ประเภท ดังนี้
เกร็ดน่ารู้ : การวิเคราะห์เชิงปัญญา (cognitive analytics)
การวิเคราะห์ของคอมพิวเตอร์ที่เลียนแบบกระบวนการคิดและการรู้จำของมนุษย์ โดยผสมศาสตร์ต่าง ๆ เช่น ปัญญาประดิษฐ์ (Artificial Intelligence : AI) และการประมวลผลภาษาธรรมชาติ (Natural Language Processing : NLP) ทำให้สามารถประมวลผลและวิเคราะห์ข้อมูลจำนวนมหาศาล และหลากหลายรูปแบบ ได้อย่างรวดเร็ว เช่น เอกสาร รายงาน รูปภาพ ไฟล์เสียง วิดีโอ การวิเคราะห์เชิงปัญญานี้ เป็นการเพิ่มศักยภาพของคอมพิวเตอร์ให้สามารถทำการวิเคราะห์ข้อมูลทั้งสามระดับได้อย่างมีประสิทธิภาพ ซึ่งทำให้องค์กรธุรกิจสามารถใช้ข้อมูลในการตัดสินใจได้อย่างถูกต้องและแม่นยำมากขึ้น เช่น IBM Watson for Oncology เป็นระบบคอมพิวเตอร์ที่วิเคราะห์ข้อมูลทางการแพทย์ของผู้ป่วยมะเร็ง โดยใช้ข้อมูลผู้ป่วยในอดีตหลายพันคน เอกสารทางวิชาการกว่า 15 ล้านรายการ ตำราแพทย์กว่า 300 เล่ม เพื่อระบุทางเลือกการรักษาที่เหมาะสมให้กับผู้ป่วยแต่ละรายได้
3.1 การวิเคราะห์เชิงพรรณนา
การวิเคราะห์เชิงพรรณนา เป็นรูปแบบพื้นฐานของการวิเคราะห์ข้อมูลเพื่ออธิบายลักษณะของข้อมูลที่เก็บรวบรวมโดยใช้ การคำนวณทางคณิตศาสตร์และสถิติพื้นฐาน การวิเคราะห์ประเภทนี้จึงเป็นรูปแบบที่นำมาใช้งานเพื่อดูภาพรวมของข้อมูลที่สนใจ โดยมีรายละเอียด ดังนี้
3.1.1 การหาสัดส่วนหรือร้อยละ เป็นการจัดการข้อมูลที่ซ้ำกันให้เป็นระเบียบและเป็นหมวดหมู่ ซึ่งจะทำให้่ง่ายต่อการนำไปใช้และง่ายต่อการสังเกตการเปลี่ยนแปลงต่าง ๆ ที่เกิดขึ้น โดยอาจแสดงในรูปแบบเศษส่วน ทศนิยม หรือร้อยละ สามารถนำเสนอในรูปแบบแผนภูมิ แผนภาพ เพื่ออธิบายข้อมูลชุดนั้น
3.1.2 การวัดค่ากลางของข้อมูล ใช้เพื่อหาค่าที่เป็นตัวแทนของข้อมูลทั้งหมด ทำให้สะดวกในการจดจำหรือสรุปเรื่องราวเกี่ยวกับข้อมูลชุดนั้น ๆ ได้มากขึ้น ค่ากลางของข้อมูลที่นิยมใช้ได้แก่ ค่าเฉลี่ย (mean) มัธยฐาน (median) และฐานนิยม (mode) สำหรับข้อมูลเชิงปริมาณที่มีค่าใกล้เคียงกัน (ค่าการกระจายของข้อมูลต่ำ) ค่าเฉลี่ยอาจเป็นค่ากลางที่ดีแต่ค่าเฉลี่ยอาจไม่เหมาะที่จะใช้เป็นค่ากลางของชุดข้อมูลที่มีค่าแตกต่างกันมาก คือ มีข้อมูลบางตัวที่ค่าสูงมาก ๆ หรือต่ำมาก ๆ ดังนั้นการพิจารณาค่าเฉลี่ยจึงควรพิจารณาการกระจายของข้อมูลด้วยซึ่งสามารถดูได้จากส่วนเบี่ยงเบนมาตรฐาน (standard deviation)
3.1.3 การหาความสัมพันธ์ของชุดข้อมูล เป็นการหาความสัมพันธ์เชิงเส้นระหว่างข้อมูล 2 ชุด (pairwise) จะบ่งบอกถึงทิศทาง (direction) ของความสัมพันธ์และระดับ (degree) ของความสัมพันธ์ ซึ่งพิจารณาได้ 2 กรณี คือ
+ ความสัมพันธ์เชิงบวก หมายความว่า สิ่งที่สนใจทั้งสองสิ่ง มีการเพิ่มขึ้นหรือลดลงไปในทิศทางเดียวกัน เช่น ค่าของ x เพิ่มขึ้น ค่าของ y ก็จะเพิ่มขึ้น
- ความสัมพันธ์เชิงลบ หมายความว่า สิ่งที่สนใจทั้งสองสิ่ง มีการเพิ่มขึ้นหรือลดลงไปในทิศทางตรงกันข้าม เช่น ค่าของ x เพิ่มขึ้น ค่าของ y กลับลดลง
เกร็ดน่ารู้ : ส่วนเบี่ยงเบนมาตรฐาน (standard deviation)
ส่วนเบี่ยงเบนมาตรฐานที่ใช้ในการวัดการกระจายของชุดข้อมูล จะมีค่าเป็นบวก (+) เสมอและมีหน่วยเดียวกับค่าของข้อมูล ถ้าส่วนเบี่ยงเบนมาตรฐานมีค่าน้อยหรือใกล้ศูนย์ หมายถึง ข้อมูลมีการกระจายน้อยมากหรือข้อมูลเกาะกลุ่มกัน แต่ถ้าส่วนเบี่ยงเบนมาตรฐานมีค่ามากจะหมายถึงขอมูลมีการกระจายหรือข้อมูลมีความแตกต่างกันมากนั้นเอง นักสถิตินิยมใช้ค่าส่วนเบี่ยงเบนมาตรฐานในการวัดการกระจายเนื่องจากมีการใช้ข้อมูลทุก ๆ ค่า หรือมีการนำข้อมูลทุกตัวมาคำนวณ ซึ่งจะทำให้ค่าการกระจายมีความละเอีดย ถูกต้องและเชื่อถือได้
นอกจากพิจารณาทิศทางของความสัมพันธ์แล้ว ยังต้องพิจารณาระดับของความสัมพันธ์ด้วย ว่าอยู่ที่ระดับใด เช่น มาก (strong) ปานกลาง (moderate) น้อย (weak)
การวิเคราะห์ความสัมพันธ์เบื้องต้นสามารถทำได้โดยการนำค่าของข้อมูลทั้งสองชุดมาสร้างแผนภาพการกระจาย ซึ่งทำให้เห็นทิศทางของความสัมพันธ์ได้ชัดเจน และสามารถประมาณระดับของความสัมพันธ์ได้ แสดงดังรูป
การดูแผนภาพการกระจายยังสามารถดูลักษณะความสัมพันธ์ของจุดต่าง ๆ หรือกลุ่มของจุด ว่ามีสัมพันธ์กันมาก ปานกลาง หรือ น้อย โดยพิจารณาความสัมพันธ์ของข้อมูลในรูปแบบของเส้นตรง ถ้าเห็นการกระจายของข้อมูลสองชุดนั้นไม่ปรากฎรูปของเส้นตรง บ่งบอกได้ว่าข้อมูลสองชุดนั้นไม่มีความสัมพันธ์กัน (รูป d) ถ้าข้อมูลมีความสัมพันธ์เชิงลบ (รูป a, b, c) และความสัมพันธ์เชิงบวก (รูป e, f, g)
3.2 การวิเคราะห์เชิงทำนาย
การคาดการณ์หรือการรู้อนาคต คนส่วนใหญ่ให้ความสำคัญ เพื่อนำมาประกอบการตัดสินใจให้สามารถเลือกสิ่งที่ดีที่สุดสำหรับตัวเองหรือองค์กรได้ ในเชิงธุรกิจ ผู้ประกอบการมีความตองการที่จะรู้ว่าการลงทุนกับสินค้าชนิดใดแล้วจะได้กำไรเท่าไหร่ เพื่อให้เลือกลงทุนได้อย่างเหมาะสม สำหรับบุคคลทั่วไป อาจมีความต้องการที่จะคาดการณ์สิ่งที่จะเกิดขึ้นในชีวิตประจำวัน เช่น ก่อนออกจากบ้านอาจคาดการณ์ว่าฝนจะตกหรือไม่ จะได้นำร่มติดต้วไปด้วย
การวิเคราะห์เชิงทำนาย เป็นการวิเคราะห์ข้อมูลในอดีตเพื่อหารูปแบบความสัมพันธ์ในชุดข้อมูลที่สามารถนำมาเป็นต้นแบบในการทำนาย คาดการณ์ผลหรือสิ่งที่จะเกิดขึ้นในอนาคต ซึ่งจะช่วยให้บุคคลหรือองค์กรสามารถตัดสินใจได้อย่างมีประสิทธิภาพ การคาดการณ์ว่าฝนจะตกหรือไม่ ทำให้เราตัดสินใจว่าควรนำร่มไปหรือไม่ การคาดการณ์นี้อาจทำโดยการเทียบจากประสบการณ์ของเราหรือจากการสังเกต อาจจะสรุปได้ว่า ถ้าฟ้าครึ้ม ลมแรง แล้วฝนจะตก ถ้าเราคาดการณ์ว่าฝนจะตก เราก็ตัดสินใจถือร่มไปด้วย แล้วถ้าเกิดฝนตกจริง ๆ เราก็ไม่เปียก แสดงว่าการตัดสินใจมีประสิทธิภาพ
จากที่กล่าวมา พอเห็นประโยชน์ที่ได้จากการวิเคราะห์เชิงทำนายบ้างแล้ว ซึ่งการวิเคราะห์เชิงทำนายแบ่งออกเป็น 2 แบบ คือ
การทำนายเชิงตัวเลข (numeric prediction) เช่น ทำนายจำนวนนาทีที่ใช้ในการรอแถวจ่ายเงิน
การทำนายเชิงหมวดหมู่ (classification) ตามคุณลักษณะร่วมที่สนใจ เช่น การทำนายสภาพอากาศว่าฝนจะตกหรือท้องฟ้าแจ่มใส
3.2.1 การทำนายเชิงตัวเลข (numeric prediction)
การทำนายเชิงตัวเลข เป็นการใช้ข้อมูลในอดีตมาวิเคราะห์หาแนวโน้วเพื่อทำนายอนาคต ซึ่งผลลัพธ์ของการทำนายจะอยู่ในรูปตัวเลข เช่น
นักเรียนตรวจสอบอุณหภูมิของประเทศที่จะไปเที่ยวในช่วงเวลาเดียวกันกับในอดีด เพื่อเตรียมเสื้อผ้าได้ถูกต้อง
เกษตรกรคาดการณ์ปริมาณน้ำฝนล่วงหน้า โดยใช้ปริมาณน้ำฝนในอดีต เพื่อใช้ในการวางแผนการเพาะปลูก
ประธานนักเรียนพยากรณ์จำนวนนักเรียนที่จะฝากเงินในธนาคารโรงเรียน เพื่อวางแผนการให้บริการที่เหมาะสม
การทำนายโดยการนำข้อมูลในอดีต (สภาพอากาศ ปริมาณน้ำฝน หรือจำนวนนักเรียน) มาวิเคราะห์หาความสัมพันธ์ระหว่างชุดข้อมูลและสร้างแบบจำลองในการทำนายที่ให้ผลลัพธ์เป็นตัวเลข โดยทั่วไป มีวิธีการทำนาย 2 วิธีคือ การทำนายโดยใช้กราฟ และ การทำนายโดยใช้สมการเชิงเส้น เมื่อข้อมูล 2 ชุด มีความสัมพันธ์เชิงเส้นต่อกันนักเรียนสามารถทำนายชุดข้อมูลที่สนใจ (y) เมื่อทราบค่าของข้อมูลอีกชุดหนึ่ง (x) ที่สัมพันธ์กัน ดังตัวอย่าง แผนภาพการกระจายของจำนวนวัวป่า (x) และจำนวนม้าลาย (y) มีความสัมพันธ์แบบเชิงเส้นต่อกัน ซึ่งหากต้องการประมาณค่าจำนวนม้าลาย เมื่อทราบจำนวนวัวป่าเราต้องลากเส้นตรงผ่านจุดต่าง ๆ ในแผนภาพการกระจายให้มากที่สุด เราเรียกเส้นตรงนี้ว่า "เส้นแนวโน้ม" และใช้เส้นแนวโน้มนี้ในการประมาณค่าจำนวนม้าลาย
การทำนายค่าจากเส้นแนวโน้ม มีขั้นตอนดังนี้
1. สร้างแผนภาพการกระจาย ทำให้ทราบรูปแบบความสัมพันธ์ของข้อมูลคร่าว ๆ
2. ลากเส้นแนวโน้ม เป็นเส้นตรงที่ลากผ่านจุดต่าง ๆ ที่อยู่บนแผนภาพการกระจายให้ได้จำนวนมากที่สุด (line fo best fit) โดยจำนวนจุดที่อยู่เหนือเส้นและใต้เส้นควรมีปริมาณใกล้เคียงกัน
3. ทำนายค่าจากเส้นแนวโน้ม
3.1 ประมาณค่าจากเส้นแนวโน้ม ในที่นี้ให้ y เป็นค่าที่ต้องการทำนายและ x เป็นข้อมูลที่ทราบค่า มีความสัมพันธ์เชิงเส้นกับ y ในการทำนาย ให้กำหนดจุดที่ทราบค่าบนแกน x แล้วลากเส้นจากจุดนั้นขนานกับแกน y ไปตัดเส้นแนวโน้ม แล้วจากเส้นจากจุดตัดบนเส้นแนวโน้มขนานกับแกน x ไปตัดที่แกน y จะได้ค่า y ซึ่งเป็นค่าที่ต้องการทำนาย (ดังภาพ 3. จำนวนวัวป่า 85,000 ตัว ม้าลายจึงมีจำนวน 110,000 ตัว)
1. สร้างแผนภาพการกระจาย
2. ลากเส้นแนวโน้ม
3. ลากเส้นจากจุดตัดบนเส้นแนวโน้ม
3.2 ทำนายค่าโดยใช้สมการเชิงเส้น เมื่อได้เส้นแนวโน้มแล้ว เราจะหาสมการเชิงเส้นของเส้นแนวโน้ม ในรูป y = mx + c
ตอนที่ 1
หาค่าความชัน (slope) ของสมการเชิงเส้น ในที่นีคือ m
เลือกจุด 2 จุดบนเส้นตรง จุดที่ 1 คือ (x1,y1) คือ 51.41, 83.16 และจุดที่ 2 คือ (x2,y2) คือ 80, 105
แทนค่า x และ y เพื่อหาความชัน m = y2-y1 / x2-x1 ( / = เครื่องหมายหาร)
m = 105-83.16 / 80-51.41
m = 21.84 / 28.59
m = 0.76
ตอนที่ 2
หาค่า c คือ ค่าจุดตัดแกน y (y-intercept) หาได้จากสมการ y = mx + c โดยแทนค่า m ที่คำนวณได้จากตอนที่ 1 และแทนค่า x1,y1 หรือ x2,y2 ในสมการ ในที่นี้ x1 = 51.41 และ y1 = 83.16
y - y1 = m(x - x1) แทนค่าในสมการได้
y - 83.16 = 0.76(x - 51.41)
y - 83.16 = 0.76x - (0.76 X 51.41)
y - 83.16 = 0.76x - 39.07
จะได้ y = 0.76x (-39.07 + 83.16)
y = 0.76x + 44.09 (คือ ค่า c)
จำนวนม้าลาย(y) = 0.76(จำนวนวัวป่า(x)) + 44.09 --> อธิบายได้ว่า จำนวนม้าลาย เท่ากับ 0.76 เท่าของจำนวนวัวป่า บวกกับ 44.09 ดังนั้นเราสามารถประมาณการจำนวนม้าลายได้ เมื่อเราทราบจำนวนวัวป่า เช่น
ถ้าจำนวนวัวป่ามี 85 พันตัว แทนค่าจากสมการ y = mx + c ได้ว่า
y = 0.76(85) + 44.09
y = 108.69 ตัว --> อธิบายได้ว่า ถ้าวัวป่า 85,000 ตัว จะมีจำนวนม้าลาย 108,690 ตัว
ตารางข้อมูลวัวป่า ม้าลาย
หาค่าความชัน (slope)
ก่อนการนำสมการเส้นแนวโน้มไปใช้ทำนาย ต้องตรวจสอบความคลาดเคลื่อนของสมการเส้นแนวโน้ม โดยคำนวณได้จาก การหาผลรวมของผลต่างกำลังสองของค่าจริงและค่าทำนาย (sum of squared errors) หรืออีกนัยหนึ่งคือ การเอาค่าจริงมาลบกับค่าที่ทำนายได้ของแต่ละจุด แล้วนำผลลัพธ์ที่ได้มายกกำลังสอง จากนั้นจึงหาผลรวมของค่ายกกำลังสองเหล่านั้น ถ้าค่าที่คำนวณได้ยิ่งน้อย แสดงว่าเส้นแนวโน้มยิ่งสามารถทำนายได้ใกล้เคียงมาก
นอกจากนี้ ยังสามารถหาสมการเส้นแนวโน้มด้วยการเขียนโปรแกรมภาษา ซึ่งอาจได้ค่าที่ถูกต้อง แม่นยำมากกว่า
การคำนวณหาค่าความคลาดเคลื่อน
D = ความคลาดเคลื่อนของสมการเส้นแนวโน้ม
d = ผลต่างระหว่างค่าจริงและค่าทำนายซึ่งคำนวณได้จาก y - Y' (y = ค่าจริงที่อยู่ในชุดข้อมูล Y' (ํวายแฮท) = ค่าที่ได้จากการแทนค่า x ในสมการเส้นแนวโน้ม)
ดังนั้น ค่าความคลาดเคลื่อนของสมการเส้นแนวโน้ม จะเท่ากับ
D = d1^2 + d2^2+d3^2+d4^2+d5^2+d6^2+d7^2+d8^2+d9^2
หรือดูตัวอย่าง https://th.wikihow.com/
3.2.2 การทำนายเชิงหมวดหมู่ (classification)
การทำนายเชิงหมวดหมู่ คือ การทำนายข้อมูลที่สนใจที่ไม่ใช่ข้อมูลตัวเลข จากข้อมูลอีกชุดหนึ่งที่มีความสัมพันธ์กัน เช่น การทำนายว่าฝนจะตกหรือไม่ตก อาหารโปรด (ต้มยำกุ้ง ผัดไทย กะเพราไก่) แนวเพลงที่ชอบ (jazz, Pop, Rock, R&B) ประเภทเครื่องดื่ม (น้ำอัดลม น้ำผลไม้) เป็นต้น
แนวคิดหลักในการทำนาย คือ ใช้ข้อมูลในอดีดที่มีการระบุหมวดหมู่แล้ว เพื่อทำนายข้อมูลชุดใหม่ที่ยังไม่ทราบหมวดหมู่ ซึ่งมีหลากหลายเทคนิคในการจัดหมวดหมู่ แต่ในที่นี้จะกล่าวถึง การจัดหมวดหมู่ด้วยวิธีการค้นหาเพื่อนบ้านใกล้เคียงที่สุด K ตัว (K-Nearest Neighbors: K-NN)
แนวคิดหลักของเทคนิคการค้นหาเพื่อนบ้านใกล้เคียงที่สุด K ตัว คือ การเทียบเคียงข้อมูลใหม่ที่ยังไม่ได้จัดหมวดหมู่กับข้อมูลเดิมที่ถูกจัดหมวดหมู่ไว้แล้ว ซึ่งการเทียบเคียงจะเทียบเคียงข้อมูลใหม่กับข้อมูลเดิมที่มีระยะห่างน้อยที่สุดก่อน แล้วเปรียบเทียบกับข้อมูลเดิมที่มีระยะห่างจากข้อมูลใหม่ถัดออกไปตามลำดับจนกระทั่ง ครบ K ตัว และใช้ข้อมูลดังกล่าวเพื่อระบุหมวดหมู่ให้กับข้อมูลใหม่ได้
ตัวอย่าง การทำนายชนิดเครื่องดื่ม
สมมติว่า นักเรียนทำงานในร้านสะดวกซื้อแห่งหนึ่ง ต้องการจัดเครื่องดื่มใหม่ล่าสุดในท้องตลาดยี่ห้อ C ลงในตู้แช่ ซึ่งเครื่องดื่มในตู้แช่ได้ถูกจัดกลุ่มไว้แล้ว โดยเครื่องดื่มที่อยู่ในกลุ่มเดียวกันจะมีคุณสมบัติใกล้เคียงกันเช่นกลุ่มน้ำอัดลม น้ำผลไม้
ถ้านักเรียนจะจัดเครื่องดื่ม C ลงในตำแหน่งใดในตู้แช่ นักเรียนต่องพิจารณาส่วนประกอบหลักของเครื่องดื่ม A ว่าใกล้เคียงหรือคล้ายกับส่วนประกอบของเครื่องดื่มกลุ่มใดมากที่สุด (เพื่อนบ้านใกล้เคียง) หากเครื่องดื่ม C นั้นมีส่วนผสมเป็นก๊าซคาร์บอนไดออกไซด์ และมีรสหวานนักเรียนก็จะวางเครื่องดื่ม C ในกลุ่มน้ำดัดลม
จากแผนภาพการกระจายที่แสดงระดับความซ่า (กลุ่ม A = ดาวสีแดง) และความหวาน (กลุ่ม B = สามเหลี่ยมสีเขียว) ของเครื่องดื่มแต่ละชนิด โดย ? สีเหลือง คือ เครื่องดื่มชนิดใหม่ที่ยังไม่ทราบว่าเป็นชนิดใด C ผลการจำแนกเครื่องดื่มชนิดใหม่เมื่อกำหนดค่า K ต่าง ๆ ดังตาราง อธิบายได้ดังนี้
หาก K=3 แสดงว่า เครื่องดื่มชนิดใหม่ C มีเพื่อนบ้านใกล้เคียงเป็น กลุ่ม B คือ มีความหวาน
หาก K=7 แสดงว่า เครื่องดื่มชนิดใหม่ C มีเพื่อนบ้านใกล้เคียงเป็น กลุ่ม A คือ มีความซ่า นั่นคือ นำ K=3 มี 1 ดาว รวมกับ K=7 มี 3 ดาว ค่าผลรวมความใกล้เคียงกลุ่ม A มีมากกว่ากลุ่ม B ดังนั้นเครื่องดื่มชนิดใหม่ C จึงเป็นเครื่องดื่มที่มี "ความซ่า" (เพื่อนบ้านใกล้เคียงกลุ่ม A)
ขั้นตอนวิธีของ K-NN มีดังนี้
1.กำหนดจำนวนเพื่อนบ้านใกล้ที่สุด (K)
2.รับข้อมูลรายการใหม่ที่ต้องการจำแนก
3.วนซ้ำในแต่ละรายการ
3.1 คำนวณระยะทาง (distance) กับข้อมูลรายการใหม่
3.3 บันทึกค่าระยะทางของแต่ละรายการ
4.จัดเรียงรายการข้อมูลตามระยะทางจากน้อยไปมาก
5.เลือกข้อมูล (K) ลำดับในข้อมูลที่จัดเรียงแล้ว
6.นับสมาชิกแต่ละกลุ่มในข้อมูล K ลำดับ
7.จำแนกข้อมูลรายใหม่ให้อยู่ในกลุ่มที่มีจำนวนสมาชิกมากที่สุด
การทำนายเชิงหมวดหมู่
ขั้นตอนวิธี 1-2 กำหนดค่า K=3 และจุดสีเทาแทนข้อมูลใหม่ที่ต้องการจำแนกว่าอยู่ในกลุ่มใดต่อไปนี้ สีเขียว สีส้ม และสีฟ้า
ขั้นตอนวิธี 3 คำนวณค่าระยะห่างระหว่างจุดสีดเทา และจุดอื่น ๆ บันทึกค่าระยะทาง เช่น 2.1, 2.4, 4.5, 3.1 เป็นต้น
ขั้นตอนวิธี 4 จัดเรียงรายการข้อมูลตามระยะทางจากน้อยไปหามาก
ขั้นตอนวิธี 5 เลือกจุดที่มีค่าระยะทางน้อยที่สุด 3 ลำดับ
ขั้นตอนวิธี 6-7 นับสมาชิกแต่ละกลุ่มในข้อมูล 3 ลำดับแรก พบว่ากลุ่มสีฟ้ามีจำนวนสมาชิก 2/3 และสีเขียวมีสมาชิก 1/3 กลุ่มสีฟ้ามีจำนวนสมาชิกมากกว่าจึงจำแนกให้ข้อมูลใหม่อยู่ในกลุ่มสีฟ้า่
การทำนายการเกิดไฟป่า
การทำนายการเกิดไฟป่าในอนาคตหรือไม่ ถ้าในวันที่อุณหภูมิเท่ากับ 21.2 องศาเซลเซียวและความชื้นสัมพัทธ์เท่ากับ 32% โดยใช้ข้อมูลในอดีต ได้แก่ อุณหภูมิเฉลี่ยในแต่ละวันซึ่งมีหน่วยเป็นองศาเซลเซียส ความชื้นสัมพัทธ์ (relative humidity) มีหน่วยเป็น % และข้อมูลการเกิดไฟป่า มาดำเนินการวิเคราะห์เพื่อทำนาย ดำเนินการได้ดังนี้
รวบรวมข้อมูลอุณหภูมิ ความชื้นสัมพัทธ์ และการเกิดไฟป่าในอดีต
2. นำข้อมูลสร้างแผนภูมิการกระจายการเกิดไฟป่า กำหนดจุดอุณหภูมิ และความชื้นสัมพัทธ์ (รูปสามเหลี่ยม) จะเกิดไฟป่าหรือไม่
3. คำนวณหาระยะทางของข้อมูล
4. เรียงระยะทางที่คำนวณได้จากน้อยไปหามาก
5. จำแนกข้อมูลใหม่ตามกลุ่มที่มีจำนวนสมาชิกมากที่สุดในชุดข้อมูล K ลำดับ
จากผลการจำแนกค่า k ข้างต้นทำนายได้ว่า ไม่เกิดไฟป่าในวันที่อุณหภูมิเท่ากับ 21.2 องศาเซลเซียส และความชื้นสัมพัทธ์เท่ากับ 32% เนื่องจากข้อมูลที่มีระยะทางน้อยที่สุด อยู่ในกลุ่ม "no" มากกว่า กลุ่ม "yes" ดังตาราง
ชวนคิด การกำหนดข้อมูลในกลุ่มเป็นจำนวนคู่ จะไม่สามารถจำแนกกลุ่มให้ข้อมูลใหม่ได้ ดังนั้นโดยทั่วไป ไม่ควรกำหนดค่า K เป็นจำนวน คู่
การประเมินความถูกต้องในการจำแนกข้อมูล
การประเมินความถูกต้องในการจำแนกกลุ่มข้อมูลเพื่อทำนายผลในอนาคตเป็นสิ่งสำคัญมาก เพราะหากผลทำนายผิดพลาดอาจเกิดความเสียหายเมื่อนำไปใช้จริง ซึ่งการประเมินความถูกต้องควรนำไปทดสอบกับชุดข้อมูลที่ทราบคำตอบอยู่แล้ว ซึ่งมักเป็นข้อมูลชุดเดียวกันกับข้อมูลตั้งต้น แต่ถูกแยกไว้เฉพาะเพื่อการประเมิน เช่น ข้อมูลไฟป่า อาจมีข้อมูลตั้งต้น 20 ตัวอย่าง และถูกกันไว้ 7 ตัวอย่างเพื่อการประเมินส่วนอีก 13 ตัวอย่างนำมาใช้เป็นเครื่องมือในการทำนาย
เกร็ดน่ารู้ : กำหนดค่า K เท่าไหร่ดี
ค่า K (จำนวนเพื่อนบ้าน) มีผลต่อความถูกต้องของการทำนาย/การจำแนกกลุ่ม
หากค่า K น้อยเกินไป เช่น K = 1 เป็นการจำแนกโดยพิจารณาจากข้อมูลเดิมเพียง 1 รายการ ซึ่งข้อมูลนี้อาจเป็นกรณีที่แตกต่างจากรายการอื่น หรือเป็นค่าผิดปกติ อาจทำให้ผลการทำนายไม่แม่นยำ ดังรูป
หากค่า K มากเกินไป เช่น K = 9 อาจจะทำให้ผลการจำแนกเบี่ยงเบนไปตามกลุ่มที่มีข้อมูลจำนวนมาก โดยที่ไม่ได้พิจารณาจากความคล้ายคลึงโดยตรง ดังรูป
เกร็ดน่ารู้ : ตัวอย่างการนำ K-NN ไปใช้
วิธีการค้นหาเพื่อนบ้านใกล้สุด K ตัว จะนำไปใช้ประโยชน์ในการพัฒนาระบบแนะนำ (recommender system) สินค้า บริการต่าง ๆ ออนไลน์ เช่น ภาพยนตร์ เพลง ที่ทำการแนะนำโดยเทียบเคียงจากลุกค้าอื่น ๆ ที่มีรายละเอียดของลูกค้ากับประวัติการซื้อ หรือประวัติการใช้บริการคล้ายกัน
นอกจากนี้ วิธีการค้นหาเพื่อนบ้านใกล้สุด K ตัว เป็นอีกวิธีการที่ได้รับความนิยมในการนำไปใช้จำแนกอีเมลขยะ (spam E-mail) ที่ส่งโฆษณาที่เราไม่ต้องการหรือบางทีอาจเป็นอีเมลที่มีข้อความหลอกเพื่อขโมย ข้อมูลส่วนบุคคล รหัสผ่าน รวมทั้งไวรัสแอบแฝงมา การจำแนกพิจารณาจากประเภทของอีเมล (อีเมลปกติ หรือ อีเมลขยะ) และความถี่ของคำที่พบในหัวข้อและข้อความในอีเมล โดย คำที่มักพบในอีเมลขยะ เช่น คำว่า "งานสบาย" "รายได้ดี" "ผู้โชคดี" "รางวัล"
สรุปท้ายบท
การวิเคราะหฺ์ข้อมูล เป็นการดำเนินการกับข้อมูล เพื่อให้เกิดความเข้าใจข้อมูลเชิงลึกในสิ่งที่สนใจศึกษา โดยผลลัพธ์ของการวิเคราะห์ข้อมูลสามารถนำไปประกอบการตัดสินใจ เพื่อให้เกิดประโยชน์สูงสุดต่อการดำเนินการของบุคคลหรือองค์กร
การวิเคาะห์ข้อมูลเชิงพรรณนา เป็นการวิเคราะห์ที่ทำให้เห็นภาพรวมของข้อมูล รูปแบบของข้อมูลและความสัมพันธ์ของข้อมูล
การวิเคระห์ข้อมูลเชิงทำนาย ดำเนินการต่อจากการวิเคราะห์เชิงพรรณนา หลังจากที่พบว่าข้อมูลมีความสัมพันธ์กัน โดยนำข้อมูลที่สัมพันธ์กันนั้นมาสร้างเป็นรูปแบบเพื่อการทำนาย หรือคาดการณ์สิ่งที่น่าจะเกิดขึ้นในอนาคต
ในการแนะนำทางเลือกที่เหมาะสมที่สุดกับสถานการณ์ที่จะเป็นไปได้ การดำเนินการวิเคราะห์ข้อมูล สามารถเลือกใช้วิธีการและเครื่องมือที่เหมาะสมเพื่อช่วยในการวิเคราะห์ข้อมูล โดยเครื่องมือที่เลือกอาจเป็นโปรแกรมตารางทำงาน หรือการเขียนโปรแกรมภาษา เพื่อช่วยในการวิเคราะห์ข้อมูลที่มีจำนวนมหาศาล และช่วยเพิ่มความแม่นยำของผลลัพธ์ที่ได้จากการดำเนินการวิเคราะห์ข้อมูล