หน่วยที่ 3 การวิเคราะห์ข้อมูล
3.1 การวิเคราะห์เชิงพรรณนา (descriptive analytics)
หน่วยที่ 3 การวิเคราะห์ข้อมูล
3.1 การวิเคราะห์เชิงพรรณนา (descriptive analytics)
คำถาม
มีขนมเค็กจำนวน 1 ก้อน แบ่งเป็น 8 ชิ้น ได้รับ 2 ชิ้น คิดเป็นสัดส่วนได้เท่าใด
สัดส่วนของนักเรียนที่สอบผ่านในชั้นเรียนมีจำนวน 30 คนจากทั้งหมด 50 คน จะเป็นกี่เปอร์เซ็นต์ (ร้อยละ)
ค่าเฉลี่ยของชุดข้อมูล 5, 7, 8, 10, 12 คือ
จากชุดข้อมูล 9, 7, 2, 4, 4, 6, 5, 6, 8, 1, 8 ค่า มัธยฐาน (Median) คือ
จากชุดข้อมูล 9, 7, 2, 4, 7, 3, 6, 5, 6, 3, 1, 8 ค่า มัธยฐาน (Median) คือ
ค่าฐานนิยม (Mode) ของชุดข้อมูล 2, 7, 3, 1, 5, 2, 8, 7, 6, 9, 8, 7, 1, 2 คือ
ค่าเบี่ยงเบนมาตรฐานของชุดข้อมูล 3, 6, 7, 10 คือ
ห้องเรียนห้องหนึ่งมีนักเรียนชาย 3 คน และนักเรียนหญิง 4 คน ถ้าต้องการจัดนักเรียนทั้ง 7 คนเพื่อถ่ายรูป โดยให้ยืนเป็นแถวหน้ากระดาน 2 แถว แถวหน้าเป็นนักเรียนหญิง และแถวหลังเป็นนักเรียนชาย จะสามารถ จัดแถวได้กี่วิธี
การวิเคราะห์เชิงพรรณนา (descriptive analytics) เป็นการวิเคราะห์ขั้นพื้นฐาน ที่ทำให้เห็นภาพรวมของข้อมูล และความสัมพันธ์ระหว่างข้อมูล ช่วยอธิบายว่าเกิดอะไรขึ้นบ้างในช่วงที่ผ่านมา และอาจนำมาช่วยในการตัดสินใจ โดยอาจใช้สถิติ เช่น การหาสัดส่วนหรือร้อยละ การวัดค่ากลางของข้อมูล (central tendency) การหาความสัมพันธ์ของชุดข้อมูล (correlation)
3.1.1 การหาสัดส่วนหรือร้อยละ
การหาสัดส่วนหรือร้อยละ เป็นการจัดการข้อมูลที่ซ้ำกันให้เป็นระเบียบและเป็นหมวดหมู่ ซึ่งจะทำให้ง่ายต่อการนำข้อมูลไปใช้ และง่ายต่อการสังเกตการเปลี่ยนแปลงต่างๆ ที่เกิดขึ้น โดยอาจแสดงในรูปของเศษส่วน ทศนิยม หรือร้อยละ และสามารถนำเสนอให้อยู่ในรูปของแผนภูมิ หรือแผนภาพ เพื่ออธิบายความหมายของข้อมูลชุดนั้นเช่น การสำรวจการเข้าศึกษาต่อในระดับอุดมศึกษาต่อจำนวน 100 คน จากทั้งหมด 400 คน คิดเป็นร้อยละ 25
การวัดค่ากลางของข้อมูล ใช้เพื่อหาค่าที่เป็นตัวแทนของข้อมูลทั้งหมด ทำให้สะดวกในการจดจำ หรือสรุปเรื่องราวเกี่ยวกับข้อมูลชุดนั้น ๆ ได้มากขึ้น ค่ากลางของข้อมูลที่นิยมใช้ ได้แก่ ค่าเฉลี่ย (mean) มัธยฐาน (median) และฐานนิยม (mode) สำหรับชุดข้อมูลปริมาณที่มีค่าใกล้เคียงกัน (ค่าการกระจ่ายของข้อมูลต่ำ) ค่าเฉลี่ยอาจเป็นค่ากลางที่ดี แต่ค่าเฉลี่ยอาจไม่เหมาะที่จะใช้เป็นค่ากลางของชุดข้อมูลที่มีค่าแตกต่างกันมาก คือมีข้อมูลบางตัวที่ค่าสูงมากๆ หรือต่ำมากๆ ดังนั้นการพิจารณาค่าเฉลี่ยจึงควรจะพิจารณาการกระจายของข้อมูลด้วย ซึ่งสามารถดูได้จากค่าส่วนเบื่ยงเบนมาตรฐาน (standard deviation)
ส่วนเบี่ยงเบนมาตรฐานที่ใช้ในการวัดการกระจายของชุดข้อมุล จะมีค่าเป็นบวกเสมอ และมีหน่วยเดียวกับค่าของข้อมูล ถ้าส่วนเบี่ยงเบนมาตรฐานมีค่าน้อยหรือใกล้ศูนย์ หมายถึง ข้อมูลมีการกระจายน้อยมากหรือข้อมูลเกาะกลุ่มกัน แต่ถ้าส่วนเบี่ยงเบนมาตรฐานมีค่ามากจะหมายถึงข้อมูลมีการกระจายมากหรือข้อมูลมีความแตกต่างกันนั่นเอง นักสถิตินิยมใช้ค่าส่วนเบี่ยงเบนมาตรฐานนี้ในการวัดการกระจาย เนื่องจากมีการใช้ข้อมูลทุกๆ ค่า หรือมีการนำข้อมูลทุกตัวมาคำนวณ ซึ่งจะทำให้ค่าการกระจายมีความละเอียดถูกต้อง และเชื่อถือได้
การวิเคราะห์ความสัมพันธ์เชิงเส้นระหว่างข้อมูล 2 ชุด (pairwise) จะบ่งบอกถึงทิศทาง (direction) ของความสัมพันธ์ และระดับ (degree) ของความสัมพันธ์ ทิศทางของความสัมพันธ์สามารถพิจารณาได้ 2 กรณี คือ
หมายความว่า สิ่งที่สนใจทั้งสองสิ่งมีการเพิ่มขึ้นหรือลดลงไปในทิศทางเดียวกัน เช่น ค่าของ x เพิ่มขึ้น ค่าของ y จะเพิ่มขึ้น
หมายความว่า สิ่งที่สนใจทั้งสองสิ่งมีการเพิ่มขึ้นหรือลดลงในทิศทางตรงกันข้าม เช่น ค่าของ x เพิ่มขึ้น ค่าของ y กลับลดลง
นอกจากพิจารณาทิศทางของความสัมพันธ์แล้ว ยังต้องพิจารณาระดับของความสัมพันธ์ด้วยว่าอยู่ที่ระดับใด เช่น มาก (strong) ปานกลาง (moderate) หรือน้อย (weak)
การวิเคราะห์ความสัมพันธ์เบื้องต้นสามารถทำได้โดยนำค่าของข้อมูลทั้งสองชุดมาสร้างแผนภาพการกระจาย ซึ่งทำให้เห็นทิศทางของความสัมพันธ์ได้ชัดเจน และสามารถประมาณระดับของความสัมพันธ์ได้
กิจกรรมที่ 3.1 การวิเคราะห์เชิงพรรณา
กิจกรรมที่ 3.1.1 ข้อมูลนี้มีอะไร
กิจกรรมที่ 3.1.2 สัมพันธ์กันหรือไม่
กิจกรรมที่ 3.1.1 ข้อมูลนี้มีอะไร
ไฟล์ข้อมูล "ไฟป่า" ดาวน์โหลดไฟล์ประกอบที่นี่ 🌐
ตอบคำถามข้อที่ 1 - 3
1. จงหาค่าต่ำสุด และสูงสุดของแต่ละปัจจัย
2. อุณหภูมิช่วงใดสูงกว่าช่วงอื่น ๆ พร้อมแสดงแผนภาพให้เห็นผลลัพธ์ของคำตอบ
3. เดือนไหนฝนตกมากที่สุด พร้อมแสดงแผนภาพให้เห็นผลลัพธ์ของคำตอบ
ไฟล์ข้อมูล "สินค้าอุปโภคบริโภคของไทย"
ตอบคำถามข้อที่ 4 - 5
4. จงหาค่าต่ำสุด และสูงสุดของแต่ละปีของสินค้าแต่ละชนิด (พริกไทยดำคละ, มะม่วงเขียวเสวย, มันฝรั่ง)
5. สินค้ากลุ่มผลไม้ใดที่ทำรายได้มากที่สุด พร้อมแสดงแผนภาพให้เห็นผลลัพธ์ของคำตอบ
ไฟล์ข้อมูล "คะแนนสอบ O-NET"
ใช้ตอบคำถามข้อที่ 6 -7
6. จงหาคะแนนต่ำสุด สูงสุด และคะแนนเฉลี่ยของแต่ละปีของแต่ละวิชา
7. ในปีถัดไปคิดว่าแนวโน้มคะแนนต่ำสุด สูงสุด และคะแนนเฉลี่ยของวิชาภาษาไทย คณิตศาสตร์ และวิชาอังกฤษ จะเป็นอย่างไร พร้อมแสดงแผนภาพให้เห็นผลลัพธ์ของคำตอบ
กิจกรรมที่ 3.1.2 สัมพันธ์กันหรือไม่
ใช้ไฟล์ข้อมูล “ไฟป่า” ในการตอบคำถาม
ข้อที่ 1 ความสัมพันธ์ของค่าเฉลี่ยความชื้นของชั้นลึกปานกลางของเชื้อเพลง(DMC) กับ ค่าความชื้นของชั้นลึกสุดของเชื้อเพลิง(DC)
ตอบ ค่าความสัมพันธ์ เท่ากับ ...................................
แปลความความหมาย คือ ความสัมพันธ์............... ระดับ..................
ข้อที่ 2 ความสัมพันธ์ของอุณหภูมิ(temp) กับ ความชื้นสัมพัทธ์(RH)
ตอบ ค่าความสัมพันธ์ เท่ากับ ..................................
แปลความความหมาย คือ ความสัมพันธ์............. ระดับ...................