การวิเคราะห์ข้อมูล
การวิเคราะห์ข้อมูล
เป็นการเปลี่ยนข้อมูลให้มีคุณค่า โดยนำผลลัพธ์ที่ได้จากการวิเคราะห์มาใช้ประโยชน์ ช่วยให้มีความเข้าใจเชิงลึกเกี่ยวกับข้อมูล เช่น ความสัมพันธ์ รูปแบบ และแนวโน้ม ที่จะสามารถนำไปประกอบการตัดสินใจตอบคำถามหรือตอบสมมติฐานที่ตั้งไว้ แบ่งเป็น 3 ประเภท
1.การวิเคราะห์เชิงพรรณนา (descriptive analytics)
“เกิดอะไรขึ้น”
เป็นการวิเคราะห์ขั้นพื้นฐาน ที่ทำให้เห็นภาพรวมของข้อมูลและความสัมพันธ์ระหว่างข้อมูล ช่วยอธิบายว่าเกิดอะไรขึ้นบ้างในช่วงที่ผ่านมาเพื่อช่วยในการตัดสินใจ
2.การวิเคราะห์เชิงทำนาย (predictive analytics)
“จะเกิดอะไรขึ้น”
เป็นการวิเคราะห์ที่ช่วยในการคาดการณ์ หรือทำนายสิ่งที่น่าจะเกิดขึ้นในอนาคต โดยใช้ข้อมูลในอดีตมาช่วยในการทำนาย
3.การวิเคราะห์เชิงแนะนำ (prescriptive analytics)
“ควรจะทำอย่างไร”
เป็นการวิเคราะห์ต่อยอดจากการทำนายผลที่น่าจะเกิดขึ้น โดยการจำลองทางเลือกที่เป็นไปได้ของสถานการณ์ (simulation) และคาดการณ์ผลที่ได้ของแต่ละสถานการณ์ เพื่อแนะนำทางเลือกที่เหมาะสมที่สุดกับสถานการณ์ที่จะเป็นไปได้
การวิเคราะห์เชิงปัญญา (cognitive analytics) การวิเคราะห์ของคอมพิวเตอร์ที่เลียนแบบกระบวนการคิดและการรู้จำของมนุษย์โดยผสมศาสตร์ต่างๆ เช่น ปัญญาประดิษฐ์ (Artificial Intelligence: Al) และการประมวลผลภาษาธรรมชาติ (Natural Language Processing : NLP) ทำให้สามารถประมวลผลและวิเคราะห์ข้อมูลจำนวนมหาศาล และหลากหลายรูปแบบได้อย่างรวดเร็ว เพิ่มศักยภาพของคอมพิวเตอร์ให้สามารถทำการวิเคราะห์ข้อมูลได้อย่างมีประสิทธิภาพ ซึ่งทำให้องค์กรธุรกิจสามารถใช้ข้อมูลในการตัดสินใจได้อย่างถูกต้องและแม่นยำมากขึ้น
การวิเคราะห์ข้อมูลแบบพื้นฐาน คือ การวิเคราะห์เพื่อแสดงผลรายการ เหตุการณ์ หรือกิจกรรมต่างๆ ที่เกิดขึ้น
การวิเคราะห์เชิงพรรณนา
เพื่ออธิบายลักษณะของข้อมูลที่เก็บรวบรวม โดยใช้การคำนวณทางคณิตศาสตร์และสถิติพื้นฐาน เช่น การหาสัดส่วนหรือร้อยละ การวัดค่ากลางของข้อมูล การวัดการกระจายของข้อมูล และการหาความสัมพันธ์ของชุดข้อมูล
1. การหาสัดส่วนหรือร้อยละ
เป็นการจัดการข้อมูลที่ซ้ำกันให้เป็นระเบียบและเป็นหมวดหมู่ ซึ่งจะทำให้ง่ายต่อการนำข้อมูลไปใช้ และง่ายต่อการสังเกตการเปลี่ยนแปลงต่างๆ ที่เกิดขึ้น โดยอาจแสดงในรูปของเศษส่วน ทศนิยม หรือร้อยละ และสามารถนำเสนอให้อยู่ในรูปของแผนภูมิ หรือแผนภาพ เพื่ออธิบายความหมายของข้อมูลชุดนั้น
สูตร
ร้อยละ (%) = จำนวนที่ต้องการแปลให้เป็นร้อยละ x 100
จำนวนทั้งหมด
2. การวัดค่ากลางของข้อมูล
ใช้เพื่อหาค่าที่เป็นตัวแทนของข้อมูลทั้งหมด ทำให้สะดวกในการจดจำ หรือสรุปเรื่องราวเกี่ยวกับข้อมูลชุดนั้นๆ ได้มากขึ้น ค่ากลางของข้อมูลที่นิยมใช้ ได้แก่
ค่าเฉลี่ย (mean) = ผลรวมของค่าข้อมูลทั้งหมด
จำนวนข้อมูลทั้งหมด
มัธยฐาน (media) หมายถึง ค่าที่อยู่ในตำแหน่งกึ่งกลางของข้อมูลชุดนั้น เมื่อได้จัดเรียงค่าของข้อมูลจากน้อยที่สุดไปหามากที่สุด ค่าที่อยู่กึ่งกลางจะเป็นตัวแทนของชุดข้อมูล
ฐานนิยม (mode) หมายถึง ค่าของคะแนนที่ซ้ำกันมากที่สุดในข้อมูลชุดนั้น
3. การหาความสัมพันธ์ของชุดข้อมูล
การวิเคราะห์ความสัมพันธ์เชิงเส้นระหว่างข้อมูล 2 ชุด (pairwise) จะบ่งบอกถึงทิศทาง (direction) ของความสัมพันธ์ และระดับ (degree) ของความสัมพันธ์ ทิศทางของความสัมพันธ์สามารถพิจารณาได้ 2 กรณี คือ
หมายความว่า สิ่งที่สนใจทั้งสองสิ่งมีการเพิ่มขึ้นหรือลดลงไปในทิศทางเดียวกัน เช่น ค่าของ x เพิ่มขึ้น ค่าของ y จะเพิ่มขึ้น
หมายความว่า สิ่งที่สนใจทั้งสองสิ่งมีการเพิ่มขึ้นหรือลดลงในทิศทางตรงกันข้าม เช่น ค่าของ x เพิ่มขึ้น ค่าของ y กลับลดลง
การวิเคราะห์เชิงทำนาย
เป็นการวิเคราะห์ข้อมูลในอดีตเพื่อหารูปแบบความสัมพันธ์ในชุดข้อมูลที่สามารถนำมาเป็นต้นแบบในการทำนาย การคาดการณ์ ผลหรือสิ่งที่น่าจะเกิดขึ้นในอนาคต ซึ่งจะช่วยให้บุคคลหรือองค์กรสามารถตัดสินใจได้อย่างมีประสิทธิภาพ
1. การทำนายเชิงตัวเลข (numeric prediction)
เป็นการใช้ข้อมูลในอดีตมาวิเคราะห์หาแนวโน้มเพื่อทำนายอนาคต ซึ่งผลลัพธ์ของการทำนายจะอยู่ในรูปตัวเลข มี 2 วิธี คือ การทำนายโดยใช้กราฟ และการทำนายโดยใช้สมการเชิงเส้น
"เส้นแนวโน้ม" เป็นการลากเส้นตรงผ่านจุดต่างๆ ในแผนภาพการกระจายให้มากที่สุด
การตรวจสอบความคลาดเคลื่อน คำนวณได้จากการหาผลรวมของผลต่างยกกำลังสองของค่าจริงและค่าทำนาย (sum of squared errors) ถ้าค่าที่คำนวณได้ยิ่งน้อย แสดงว่าเส้นแนวโน้มยิ่งสามารถทำนายได้ใกล้เคียงมาก
2. การทำนายเชิงหมวดหมู่ (classification)
คือ การทำนายข้อมูลที่สนใจที่ไม่ใช่ข้อมูลตัวเลข จากข้อมูลอีกชุดหนึ่งที่มีความสัมพันธ์กัน โดยใช้ข้อมูลในอดีตที่มีการระบุหมวดหมู่มาแล้ว เพื่อทำนายข้อมูลชุดใหม่ที่ยังไม่ทราบหมวดหมู่ ด้วยวิธีการค้นหาเพื่อนบ้านใกล้เคียงที่สุด K ตัว (K-Nearest Neighbors : K-NN) คือ การเทียบเคียงข้อมูลใหม่ที่ยังไม่ได้จัดหมวดหมู่กับข้อมูลเดิมที่ถูกจัดหมวดหมู่ไว้แล้ว ซึ่งการเทียบเคียงจะเทียบเคียงข้อมูลใหม่กับข้อมูลเดิมที่มีระยะห่างน้อยที่สุดก่อน แล้วเปรียบเทียบกับข้อมูลเดิมที่มีระยะห่างจากข้อมูลใหม่ถัดออกไปตามลำดับจนกระทั่งครบ K ตัว และใช้ข้อมูลดังกล่าวเพื่อระบุหมวดหมู่ให้กับข้อมูลใหม่ได้