หน่วยที่ 2 การเก็บรวบรวมและสำรวจข้อมูล
2.3 การสำรวจข้อมูล
หน่วยที่ 2 การเก็บรวบรวมและสำรวจข้อมูล
2.3 การสำรวจข้อมูล
คำถาม
วันนี้ขอหนึ่งคำถาม ถามอะไรก็ได้ที่คิด วิเคราะห์แล้ว เป็นสิ่งที่เป็นประโยชน์ต่อตนเองหรือสังคม ลองพูดดูซิ
การสำรวจข้อมูล (data exploration) คืออะไร
ขั้นตอนหลักของกระบวนการการสำรวจข้อมูล คือการทดลองวาดแผนภาพ หรือกราฟของข้อมูลในรูปแบบต่างๆ เพื่อพิจารณาภาพรวมของข้อมูล ระหว่างการสำรวจอาจจะพบข้อผิดพลาดหรือปัญหาอื่นๆ จากการตั้งคำถาม หรือการรวบรวมข้อมูล ซึ่งทำให้ต้องกลับไปดำเนินการแก้ไขให้ถูกต้อง เช่น พบว่ามีข้อมูลสูญหาย ข้อมูลผิดรูปแบบ ข้อมูลมีค่าผิดปกติ
เครื่องมือพื้นฐานในการสำรวจข้อมูล เช่น กราฟเส้น ฮิสโทแกรม แผนภาพกล่อง หรือแผนภาพการกระจาย
ไฟล์ข้อมูล รายได้เฉลี่ยต่อครัวเรือน 41-58.xls
https://drive.google.com/file/d/1IQ3XExAK0kPkcnpNj0bNI5hrNhGyn4Da/view?usp=sharing
เมื่อพิจารณาชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือน อาจใช้กราฟเส้น เพื่อแสดงรายได้เฉลี่ยต่อครัวเรือนแต่ละปีจำแนกตามภาค ซึ่งผลจากการสำรวจข้อมูลโดยใช้กราฟเส้น จะเห็นว่ารายได้เฉลี่ยต่อครัวเรือนนั้นแตกต่างกันตามภูมิภาค โดยภาพรวมแล้วรายได้เฉลี่ยต่อครัวเรือนมีแนวโน้มเพิ่มขึ้นในทุกภาคจนถึงปี พ.ศ. 2556 แต่สำหรับภาคกลางตอนพิเศษ (รวมกรุงเทพมหานครและจังหวัดใกล้เคียง) และภาคใต้ รายได้มีแนวโน้มลดลงหลังปี พ.ศ. 2556
การสำรวจข้อมูลเพื่อแสดงความถี่ของสิ่งที่สนใจ อาจใช้ฮิสโทแกรม ตัวอย่างเช่น ในชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือน ถ้าต้องการสำรวจรายได้เฉลี่ยของประชากรในแต่ละจังหวัด ฮิสโทแกรมจะแสดงผลข้อมูลความถี่
บางครั้งภายในข้อมูลชุดเดียวอาจประกอบไปด้วยกลุ่มย่อยหลาย ๆ กลุ่ม ซึ่งทำให้สามารถพิจารณาข้อมูลแต่ละกลุ่มแยกกันได้ และอาจเห็นลักษณะพิเศษบางอย่าง ตัวอย่างเช่น ในกรณีของข้อมูลรายได้ในแต่ละจังหวัด มีการนำเสนอรายได้เฉลี่ยต่อครัวเรือนรายภาค
ถ้าพิจารณารายละเอียดในแต่ละภาค โดยหาค่าสูงสุด ต่ำสุด และค่าควอไทล์ต่าง ๆ ของแต่ละภาคจะเห็นรายละเอียดข้อมูลมากขึ้น และเมื่อนำค่าเหล่านี้มาวาดแผนภาพกล่อง (box plot) จะเห็นว่า ภาคกลางนั้นแม้จะมีความแตกต่างของรายได้ระหว่างควอไทล์ที่ 1 และ 3 ไม่มากนัก แต่จะมีความแตกต่างระหว่างรายได้สูงสุดกับรายได้ต่ำสุดมาก นอกจากนี้จังหวัดที่มีรายได้สูงสุดของภาคกลาง ยังมีรายได้ใกล้เคียงกับรายได้สูงสุดของกลุ่มจังหวัดภาคกลางตอนพิเศษด้วย
การใช้แผนภาพการกระจาย (scatter plot) เพื่อแสดงความสัมพันธ์ระหว่าง 2 แอตทริบิวต์ ตัวอย่างเช่น รายได้เฉลี่ยต่อครัวเรือน 41-58 ถ้าต้องการสำรวจว่า ทั้ง 2 แอตทริบิวต์นี้มีความสัมพันธ์กันหรือไม่ การสำรวจข้อมูลด้วยแผนภาพการกระจาย จะแสดงให้เห็นว่ามีความสัมพันธ์ระหว่างรายได้และรายจ่าย โดยมีแน้วโน้มถ้ารายได้เพิ่มขึ้น รายจ่ายก็จะเพิ่มขึ้นด้วย
การสำรวจข้อมูลด้วยการเขียนโปรแกรม จะต้องนำเข้าข้อมูลสู่โปรแกรมที่ใช้สำหรับการประมวลผล โดยถ้าข้อมูลมีปริมาณไม่มาก ในขั้นตอนการเตรียมข้อมูล นักเรียนสามารถเตรียมข้อมูลจากไฟล์ที่อยู่ในรูปแบบ xls หรือ cvs ก่อนเริ่มการนำเข้าข้อมูล จากนั้นจึงเลือกใช้การประมวลผลด้วยโปรแกรมสำเร็จรูป หรือการเขียนโปรแกรม แต่หากข้อมูลมีปริมาณมากเกินกว่าที่โปรแกรมสำเร็จรูปจะสามารถจัดเก็บหรือประมวลผลได้ นักเรียนจำเป็นต้องใช้วิธีการนำเข้าและประมวลผลข้อมูลด้วยโปรแกรมภาษา หรือใช้โปรแกรมสำเร็จรูปเฉพาะสำหรับงานด้านวิทยาการข้อมูล ซึ่งในกรณีนี้ นักเรียนไม่จำเป็นต้องดำเนินการจัดเตรียมข้อมูลตามขั้นตอนที่กล่าวมาแล้วข้างต้น
สสวท ได้จัดเตรียมวิดีโอสำหรับศึกษาการสำรวจข้อมูลโดยใช้เครื่องมืออื่น ๆ เช่น Tableau, Python, R โดยผู้เรียนสามารถเข้าไปศึกษาได้ที่ https://data.programming.in.th/ ให้เลือกศึกษาตามความสนใจและความถนัดของตนเอง
การติดตั้งและใช้งานโปรแกรมภาษา Python >>คลิก
การติดตั้งการใช้งาน Jupyter notebook >> คลิก
กิจกรรมที่ 2.3 การสำรวจข้อมูล
เมื่อนักเรียนศึกษาจบเนื้อหาในหัวข้อที่ 2.3 การสำรวจข้อมูล แล้วปฏิบัติกิจกรรม
1. เครื่องมือพื้นฐานในการสำรวจข้อมูล ยกเว้น ข้อใด
ก. กราฟเส้น
ข. ฮิสโทแกรม
ค. แผนภาพกล่อง
🌟 ง. แผนภาพ 3 มิติ
2. แผนภาพใดเหมาะสำหรับการเปรียบเทียบสัดส่วนของข้อมูลโดยเทียบกับผลรวมของทุกๆ ข้อมูลรวมกัน เพื่อเปรียบเทียบเชิงสัดส่วน
ก. กราฟเส้น
ข. ฮิสโทแกรม
🌟 ค. แผนภาพกล่อง
ง. กราฟวงกลม
3. แผนภาพใดเหมาะสำหรับใช้ดูแนวโน้มของข้อมูล
🌟 ก. กราฟเส้น
ข. ฮิสโทแกรม
ค. แผนภาพกล่อง
ง. กราฟวงกลม
4. แผนภาพใดเหมาะสำหรับการเปรียบเทียบข้อมูลว่าอะไรมาก อะไรน้อย
ก. กราฟเส้น
🌟 ข. ฮิสโทแกรม
ค. แผนภาพกล่อง
ง. กราฟวงกลม
5. ข้อมูลในข้อใดเหมาะสมที่สุดกับการใช้แผนภาพการกระจายในการสำรวจข้อมูล
ก. ข้อมูลสัดส่วนเวลาของการใช้แอปพลิเคชันในมือถือของผู้ใช้งาน
ข. ข้อมูลสีของเสื้อที่นักเรียนชอบใส่ไปเที่ยวทะเล
ค. ข้อมูลจำนวนอุบัติเหตุที่เกิดในวันต่าง ๆ ของปี
🌟 ง. ข้อมูลความชื้นสัมพัทธ์ในอากาศ ณ อุณหภูมิต่าง ๆ ที่เซ็นเซอร์วัดได้
6. แผนภาพใดเป็นวิธีที่ดีที่สุดในการแสดงความสัมพันธ์ระหว่างตัวแปรประเภทตัวเลขสองตัวแปร
ก. แผนภูมิวงกลม
ข. กราฟเส้น
🌟 ค. ฮิสโทแกรม
ง. แผนภาพการกระจาย
7. การหาแนวโน้มของค่าเฉลี่ยต่อเดือนต่อครัวเรือน ควรใช้แผนภาพใด
ก. แผนภูมิวงกลม
🌟 ข. กราฟเส้น
ค. ฮิสโทแกรม
ง. แผนภาพการกระจาย
8. ไฟล์ข้อมูลรายได้เฉลี่ยต่อเดือนต่อครัวเรือน พ.ศ.2541-2558 จากการสำรวจข้อมูลโดยใช้กราฟเส้น สรุปได้ตามข้อใด
ก. มีแนวโน้มสูงขึ้น ยกเว้น ภาคใต้
ข. มีแนวโน้มสูงขึ้น ยกเว้น ภาคเหนือและภาคใต้
ค. มีแนวโน้มสูงขึ้น ยกเว้น ภาคตะวันออกเฉียงเหนือและภาคใต้
ง. มีแนวโน้มสูงขึ้นทุกภาค
9. ข้อมูลรายได้เฉลี่ยต่อเดือนต่อครัวเรือน พ.ศ.2541-2558 ถ้าต้องการสำรวจรายจ่ายเฉลี่ยของประชากรในแต่ละจังหวัด เพื่อแสดงความถี่ของช่วงข้อมูลรายจ่าย ควรใช้แผนภาพใด
ก. แผนภูมิวงกลม
ข. กราฟเส้น
ค. ฮิสโทแกรม
ง. แผนภาพการกระจาย
10. จากข้อมูลรายได้เฉลี่ยต่อเดือนต่อครัวเรือน พ.ศ.2541-2558 ถ้าสำรวจรายได้เฉลี่ยต่อเดือนต่อครัวเรือน ปี พ.ศ. 2541 จะพบว่ามีกี่จังหวัดที่มีรายได้เฉลี่ยต่อเดือนต่อครัวเรือนที่ 10,842 - 12,442 บาท
ก. 10 จังหวัด
ข. 11 จังหวัด
ค. 12 จังหวัด
ง. 13 จังหวัด