หน่วยที่ 2 การเก็บรวบรวมและสำรวจข้อมูล
2.2 การเตรียมข้อมูล (data preparation)
หน่วยที่ 2 การเก็บรวบรวมและสำรวจข้อมูล
2.2 การเตรียมข้อมูล (data preparation)
คำถาม
วันนี้ขอหนึ่งคำถาม ถามอะไรก็ได้ที่คิด วิเคราะห์แล้ว เป็นสิ่งที่เป็นประโยชน์ต่อตนเองหรือสังคม ลองพูดดูซิ
การเตรียมข้อมูล (data preparation) หมายถึงอะไร
การเตรียมข้อมูล (data preparation) สามารถแบ่งออกเป็นกี่ขั้นตอน อะไรบ้าง
การแปลงข้อมูล (data transformation) คือกระบวนการแปลง, แก้ไขหรือลบข้อมูลที่ผิดพลาดและไม่เกี่ยวข้อง, และจัดเรียงข้อมูลเข้าระบบให้อยู่ใน format ที่สะดวกต่อการวิเคราะห์ โดย Data Transformation นี้ การจะทำออกมาให้ได้ดี หัวใจที่สำคัญคือคน สามารถทำได้กี่วิธี อะไรบ้าง
ในไฟล์เฉลี่ยต่อเดือนต่อครัวเรือน 41-48.xls ในปี 2556 มีกี่จังหวัดที่มีรายได้เฉลี่ยต่ำกว่า 15000 บาท
ในไฟล์เฉลี่ยต่อเดือนต่อครัวเรือน 41-48.xls ในปี 2558 มีกี่จังหวัดที่มีรายได้เฉลี่ยต่ำกว่า 15000 บาท
เมื่อเลือกแหล่งข้อมูลและรวบรวมข้อมูลได้แล้ว ขั้นตอนถัดไปคือการเตรียมข้อมูล เพื่อเตรียมพร้อมสำหรับการประมวลผล ซึ่งข้อมูลที่จะใช้ในการประมวลผลนี้จะต้องมีความถูกต้อง ครบถ้วน สมบูรณ์ และไม่มีข้อมูลที่มีค่าผิดปกติ ดังนั้น ก่อนจะนำข้อมูลไปใช้ จะต้องมีการจัดเตรียมข้อมูล และทำความสะอาดข้อมูล
ข้อมูลที่รวบรวมมานั้น อาจมีข้อผิดพลาด ซึ่งไม่เหมาะสมที่จะนำไปประมวลผล เช่น มีค่าว่าง มีค่าที่อยู่นอกขอบเขตค่าที่เป็นไปได้ หน่วยนับไม่ตรงกัน ค่าผิดปกติ(outlier) ตลอดจนมีรูปแบบที่ต่างกัน
ข้อผิดพลาดเหล่านี้เกิดจากหลายสาเหตุ เช่น ผู้ให้ข้อมูลกรอกข้อมูลไม่ครบถ้วน ผู้บันทึกข้อมูลพิมพ์ข้อมูลผิดพลาด หรือการขาดข้อกำหนดในการบันทึกข้อมูลที่ตรงกัน
จากการตรวจสอบข้อมูลระเบียนผู้ป่วยของโรงพยาบาลแห่งหนึ่ง เมื่อวันที่ 6 มีนาคม 2560 พบว่า ข้อมูลผิดพลาด 4 รายการ ดังตาราง ให้ระบุข้อผิดพลาดของข้อมูลพร้อมอธิบายเหตุผล
การแก้ไขข้อมูลเมื่อพบว่ามีข้อผิดพลาด หากสามารถทำการแก้ไขได้ ให้ดำเนินการแก้ไขให้ถูกต้อง หรือลบข้อมูลนั้นออกไปถ้าไม่ส่งผลกระทบต่อการประมวลผล ซึ่งการจัดเตรียมข้อมูลที่มีจำนวนไม่มากอาจจะใช้คนดำเนินการตรวจสอบและแก้ไขข้อมูลได้ หากข้อมูลมีจำนวนมากอาจจะต้องใช้โปรแกรมคอมพิวเตอร์ดำเนินการจัดเตรียมข้อมูลให้สอดคล้องกับเงื่อนไข และรูปแบบของข้อมูลที่กำหนดในโปรแกรม
เมื่อได้ข้อมูลที่ผ่านการตรวจสอบและทำความสะอาดแล้ว นักเรียนอาจประมวลผลข้อมูลด้วยการเขียนโปรแกรมหรือใช้โปรแกรมสำเร็จรูป ขั้นตอนการนำเข้าอาจมีการคัดลอกแฟ้มข้อมูลและจัดให้เป็นระบบ อย่างไรก็ตาม ถ้านักเรียนประมวลผลข้อมูลด้วยโปรแกรมตารางทำงาน เช่น Microsoft Excel, LibreOffice Calc หรือ Google Sheet นักเรียนจะต้องจัดการข้อมูลที่มากจากหลายแหล่งให้เป็นระเบียบในรูปแบบเดียวกัน เพื่อให้สามารถประมวลผลข้อมูลได้ถูกต้อง
Data Transformation คือกระบวนการแปลง, แก้ไขหรือลบข้อมูลที่ผิดพลาดและไม่เกี่ยวข้อง, และจัดเรียงข้อมูลเข้าระบบให้อยู่ใน format ที่สะดวกต่อการวิเคราะห์ โดย Data Transformation นี้ การจะทำออกมาให้ได้ดี หัวใจที่สำคัญคือคน
1. การลดจำนวนข้อมูล
การลดจำนวนข้อมูลเป็นเลือกเฉพาะข้อมูลที่สนใจ เพื่อจัดเตรียมข้อมูลก่อนการประมวลผล ตัวอย่างเช่น จากชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือน สังเกตว่าตารางดังกล่าวแต่ละแถวเป็นข้อมูลของแต่ละจังหวัด และแต่ละคอลัมน์แสดงรายได้เฉลี่ยต่อครัวเรือนในปี พ.ศ. ต่าง ๆ อย่างไรก็ตาม ยังมีแถวข้อมูลที่เป็นข้อมูลสรุปแยกตามภาคและข้อมูลรวมทั่วราชอาณาจักรด้วย
จากชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือนจำแนกตามภาคและจังหวัด สามารถจัดระเบียบข้อมูล โดยแยกข้อมูลภาคและจังหวัดออกเป็น 2 คอลัมน์ จะช่วยให้การนำไปประมวลผลได้ง่ายยิ่งขึ้น
การรวมข้อมูลเป็นการจัดกลุ่มข้อมูลที่มีค่าสอดคล้องกับเงื่อนไขที่กำหนดในแอตทริบิวต์ที่สนใจ เช่น นักเรียนต้องการตั้งคำถามว่า "จังหวัดใดมีรายได้เฉลี่ยต่อครัวเรือนอยู่ในระดับต่ำ ปานกลาง และสูง" ในกรณีนี้ นักเรียนอาจกำหนดเงื่อนไขรายได้เฉลี่ยต่อครัวเรือนในแต่ละระดับ เป็นดังนี้
ระดับต่ำ หมายถึง มีรายได้อยู่ระหว่าง
15,001 - 20,000 บาท
ระดับปานกลาง หมายถึง มีรายได้อยู่ระหว่าง 20,001 - 25,000 บาท
ระดับสูง หมายถึง มีรายได้อยู่ระหว่าง
25,001 - 30,000 บาท
ในกรณีที่ต้องการใช้ข้อมูลของกลุ่มตัวอย่างที่มีการเผยแพร่จากหลายแหล่ง หรือไฟล์ข้อมูลที่ต่างกัน เช่น ต้องการใช้ข้อมูลรายได้และรายจ่ายของครัวเรือนในแต่ละจังหวัด ที่มีการเผยแพร่จากแหล่งข้อมูลต่างกัน
การเชื่อมโยงข้อมูลจากหลายแหล่งเข้าด้วยกัน ทำได้โดยใช้แอตทริบิวต์เดียวกันจากทั้งสองแหล่งเป็นตัวเชื่อม เช่น ข้อมูลรายจ่ายเฉลี่ยต่อครัวเรือน และข้อมูลรายได้เฉลี่ยต่อครัวเรือน มีแอตทริวบิวต์ที่เหมือนกันคือ จังหวัด ดังนั้น จะใช้จังหวัดเป็นตัวเชื่อมโยงข้อมูลจากทั้งสองแหล่ง
ดาวโหลดไฟล์ expense 58 คลิก ประกอบกิจกรรม 2.2.3
กิจกรรมที่ 2.2 การเตรียมข้อมูล
เมื่อนักเรียนศึกษาจบเนื้อหาในหัวข้อที่ 2.2 การเตรียมข้อมูล แล้วปฏิบัติกิจกรรม
(กิจกรรมนี้ไม่ต้องทำลงในสมุดครับ)
กิจกรรมที่ 2.2.1
คำชี้แจง : ให้นักเรียนทำตามขั้นตอน
1. ดาวน์โหลดไฟล์ “รายได้เฉลี่ยต่อเดือนต่อครัวเรือน 41-58.xls” ซึ่งเป็นชุดข้อมูลรายได้เฉลี่ยต่อครัวเรือน จำแนกตามภาค และจังหวัด พ.ศ. 2541-2558 จากเว็บไซต์ ดาวน์โหลดไฟล์ที่นี้
2. เลือกใช้โปรแกรม Microsoft Excel หรือโปรแกรมตารางทำงานอื่นช่วยในการจัดการข้อมูล ดังนี้
2.1 เปิดโปรแกรมเพื่อนำเข้าข้อมูล “รายได้เฉลี่ยต่อเดือนต่อครัวเรือน 41-58.xls”
2.2 ให้ผู้เรียนจัดเตรียมข้อมูลให้เป็นระเบียบสำหรับการประมวล ดังนี้
1) ลบแถวที่ไม่มีข้อมูล และเป็นช่องว่าง
2) แยกภาคและจังหวัดออกเป็น 2 แอตทริบิวต์
3) ลบแถวที่แสดงการรวมข้อมูล ได้แก่ ทั่วราชอาณาจักร ตอนพิเศษ ภาคกลาง ภาคเหนือ ภาคตะวันออกเฉียงเหนือ และ ภาคใต้
4) ดูจังหวัดให้ดีนะครับ ว่าชิดซ้ายหรือยัง ถ้ายังจะแก้ไขอย่างไร
5) บันทึกไฟล์ใหม่ ชื่อ “income.xls”
วิดีโอประกอบ กิจกรรมที่ 2.2.1
ใช้ไฟล์รายได้เฉลี่ยต่อครัวเรือนต่อเดือน 41-58.xls ดาวน์โหลดไฟล์ที่นี้
กิจกรรมที่ 2.2.2
คำชี้แจง
ให้นักเรียนนำข้อมูลจากไฟล์ "รายได้เฉลี่ยต่อเดือนต่อครัวเรือน 41-58.xls" เพื่อจัดกลุ่มข้อมูลรายได้เฉลี่ยต่อเดือน ดังนี้
กลุ่มที่ 1 < 15,000 บาท
กลุ่มที่ 2 15,000 - 20,000 บาท
กลุ่มที่ 3 20,001 - 25,000 บาท
กลุ่มที่ 4 25,001 - 30,000 บาท
กลุ่มที่ 5 30,001 - 35,000 บาท
กลุ่มที่ 6 35,001 - 40,000 บาท
กลุ่มที่ 7 > 40,000 บาท
โดยสร้างเป็นไฟล์ใหม่ชื่อ Groupincome.xlsx
วิดีโอประกอบ กิจกรรมที่ 2.2.2