หน่วยที่ 2 การเก็บรวบรวมและสำรวจข้อมูล
2.1 การเก็บรวบรวม
จากการที่ข้อมูลเป็นสิ่งที่มีมูลค่ามหาศาลในปัจจุบัน จึงมีการนำเข้อมูลมาวิเคราะห์หรือประมวลผลให้เกิดประโยชน์กับบุคคล หรือองค์กร แต่การให้ได้มาซึ่งข้อมูลที่เป็นประโยชน์นั้น กระบวนการในการเก็บรวบรวมข้อมูล นับว่าเป็นสิ่งสำคัญ เหมือนกับประโยคที่ว่า Garbage in garbage out : เมื่อนำข้อมูลที่เป็นขยะเข้ามาย่อมได้ข้อมูลที่เป็นขยะออกไปเช่นกัน สำหรับขั้นตอนการรวบรวมข้อมูล จะเป็นการเก็บรวบรวมข้อมูลทุติยภูมิ นักเรียนต้องกำหนดเป้าหมายให้ชัดเจนว่า จะนำข้อมูลที่รวบรวมได้ไปใช้ในเรื่องใด และจะวิเคราะห์อย่างไรเพื่อให้ได้ผลลัพธ์ตามที่ต้องการโดยเป้าหมายนี้จะสามารถบอกได้ว่าข้อมูลที่ต้องการรวบรวมได้จากที่ใด และด้วยวิธีการใด
(ข้อมูลเพิ่มเติม เกี่ยวกับชนิดของข้อมูล >>คลิก )
(ข้อมูลเพิ่มเติม เกี่ยวกับการเก็บข้อมูลปฐมภูมิ คลิก )
ข้อมูลสถิติอาจจำแนกตามแหล่งที่มาได้ 2 ทาง คือ
ข้อมูลปฐมภูมิ (Primary Data) เป็นข้อมูลที่ผู้ใช้หรือหน่วยงานที่ใช้เป็นผู้ทำการเก็บข้อมูลด้วยตนเอง ซึ่งวิธีการเก็บรวบรวมข้อมูลอาจใช้วิธีการสัมภาษณ์ การทดลอง หรือการสังเกตการณ์ ข้อมูลปฐมภูมิเป็นข้อมูลที่มีรายละเอียดตรงตามที่ผู้ใช้ต้องการ แต่มักจะเสียเวลาในการจัดหาและมีค่าใช้จ่ายสูง
ข้อมูลทุติยภูมิ (Secondary Data) เป็นข้อมูลที่ผู้ใช้ไม่ได้เก็บรวบรวมเอง แต่มีผู้อื่นหรือ หน่วยงานอื่นๆ ทำการเก็บรวบรวมไว้แล้ว เช่น จากรายงาน ที่พิมพ์แล้ว หรือยังไม่ได้พิมพ์ของ หน่วยงานของรัฐบาล สมาคม บริษัท สำนักงานวิจัย นักวิจัย วารสาร หนังสือพิมพ์ เป็นต้น การนำเอาข้อมูลเหล่านี้มาใช้เป็นการประหยัดเวลาและค่าใช้จ่าย แต่ในบางครั้งข้อมูลอาจจะไม่ตรงกับความต้องการของผู้ใช้ หรือมีรายละเอียดไม่เพียงพอที่จะนำไปวิเคราะห์ นอกจากนี้ในบางครั้ง ข้อมูลนั้นอาจมีความผิดพลาดและผู้ใช้มักจะไม่ทราบข้อผิดพลาดดังกล่าว ซึ่งอาจมีผลกระทบต่อการสรุปผล ดังนั้น ผู้ที่จะนำข้อมูลทุติยภูมิมาใช้ควรระมัดระวังและตรวจสอบคุณภาพข้อมูลก่อนที่จะนำไปวิเคราะห์
แหล่งข้อมูลทุติยภูมิที่เผยแพร่ของประเทศไทย
หล่งข้อมูลทุติยภูมิที่เผยแพร่ของต่างประเทศที่เผยแพร่ให้ใช้งานฟรี
● https://archive.ics.uci.edu/ml/index.php
การเลือกใช้แหล่งข้อมูลที่ไม่เหมาะสมหรือมีการบิดเบือน อาจทํา ให้ข้อสรุปที่ได้ผิดพลาดหรือชี้นํา
ผิดทาง นอกจากนี้อาจทํา ให้เกิดอันตรายและสร้างความเสียหายในรูปแบบต่าง ๆ ได้
ความทันสมัยของข้อมูล (currency)
ควรตรวจสอบว่าข้อมูลเผยแพร่เมื่อใด สํารวจและปรับปรุงเมื่อใด นอกจากนี้ในปัญหาที่สนใจ ควรตรวจสอบว่าสามารถใช้ข้อมูลที่เผยแพร่นานมาแล้วได้หรือไม่
ความสอดคล้องกับการใช้งาน (relevance)
ควรตรวจสอบว่าข้อมูลเกี่ยวข้องกับปัญหาที่ต้องการหรือไม่
ความน่าเชื่อถือของแหล่งข้อมูล (authority)
พิจารณาความน่าเชื่อถือของแหล่งข้อมูล ผู้เผยแพร่มีความชํา นาญพอที่จะให้ข้อมูลในเรื่องดังกล่าวหรือไม่สามารถติดต่อผู้เผยแพร่ได้หรือไม่
ความถูกต้องแม่นยํา (accuracy)
ตรวจสอบความถูกต้องพื้นฐานของข้อมูล ตรวจสอบว่ามีการนํา ข้อมูลไปอ้างอิงที่อื่น
หรือไม่ หรือมีการตรวจสอบยืนยันความถูกต้องของข้อมูลหรือไม่
จุดมุ่งหมายของแหล่งข้อมูล (purpose)
ตรวจสอบว่าข้อมูลดังกล่าวถูกพัฒนาขึ้นเพื่อเป้าหมายใด เช่น เพื่อใช้ในการรณรงค์ เผยแพร่เพื่อการโฆษณา หรือเพื่อการศึกษาอื่น ๆ
แบบฝึกหัดการเก็บรวบรวมข้อมูล ให้นักเรียนทำได้ 3 ครั้ง
2.2 การเตรียมข้อมูล (data preparation)
>> สื่อการเรียนรู้เรื่องการเตรียมข้อมูล (Data Preparation)
วิดีโอ YouTube
2.2.1 การทำความสะอาดข้อมูล (data cleansing)
ข้อมูลที่รวบรวมมานั้น อาจมีข้อผิดพลาดซึ่งไม่เหมาะต่อการนำไปประมวลผล ได้แก่
มีค่าว่าง
มีค่าที่อยู่นอกขอบเขตจากค่าที่เป็นไปได้
ใช้หน่วยนับผิด
เป็นค่าผิดปกติ (outlier)
ใช้รูปแบบข้อมูลแตกต่างกัน
พิมพ์ผิด
ซึ่งสาเหตุเกิดจากผู้ให้ข้อมูลกรอกข้อมูลไม่ครบถ้วน ผู้บันทึกข้อมูลพิมพ์ข้อมูลผิดพลาด หรือการขาดข้อกำหนดในการบันทึกข้อมูล การแก้ไขข้อมูลเมื่อพบว่ามีข้อผิดพลาด สามารถทำได้โดยการแก้ไขให้ถูกต้อง หรือลบข้อมูลที่ไม่ส่งผลกระทบต่อการประมวลผล หากข้อมูลมีจำนวนไม่มาก สามารถใช้คนดำเนินการตรวจสอบและแก้ไขข้อมูล แต่หากข้อมูลมีจำนวนมาก ต้องอาศัยโปรแกรมคอมพิวเตอร์ในการดำเนินการจัดเตรียมข้อมูลให้สอดคล้องกับเงื่อนไข และรูปแบบข้อมูลที่กำหนดในโปรแกรม
2.2.2 การแปลงข้อมูล (data transformation)
เป็นการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมสำหรับการประมวลผล โดยรูปแบบของข้อมูลที่พร้อมประมวลผลในโปรแกรมตารางทำงานนั้น แต่ละแถว (บรรทัด) คือข้อมูล 1 รายการ และแต่ละคอลัมน์ (หลัก) คือ คุณลักษณะ หรือแอตทริบิวต์
การลดจำนวนข้อมูล
การเพิ่มจำนวนข้อมูล
การรวมข้อมูล
2.2.3 การเชื่อมโยงข้อมูล (combining data)
กรณีที่ต้องการใช้ข้อมูลของกลุ่มตัวอย่างที่มีการเผยแพร่จากหลายแหล่ง หรือมีหลายไฟล์ข้อมูล ต้องทำการเชื่อมโยงข้อมูลจากหลายแหล่งเข้าด้วยกัน โดยใช้คุณลักษณะหรือแอตทริบิวต์ ที่มีอยู่รวมกันของหลายแหล่งข้อมูล เป็นตัวเชื่อมโยง
แบบฝึกหัดการเตรียมข้อมูล ให้นักเรียนทำได้ 3 ครั้ง
2.3 การสำรวจข้อมูล (data exploration)
กระบวนการสำรวจข้อมูล มีขั้นตอนหลักๆ คือการวาดแผนภาพ หรือกราฟของข้อมูลในรูปแบบต่างๆ เพื่อพิจารณาภาพรวมของข้อมูล ระหว่างการสำรวจข้อมูลอาจพบข้อผิดพลาดหรือปัญหาอื่นจากการตั้งคำถาม หรือการรวบรวมข้อมูล ซึ่งต้องกลับไปดำเนินการแก้ไขข้อมูลให้ถูกต้อง เช่น พบว่ามีข้อมูลสูญหาย ผิดรูปแบบ มีค่าผิดปกติ
เครื่องมือพื้นฐานในการสำรวจข้อมูล
กราฟเส้น (line chart) – แสดงแนวโน้มของข้อมูล
ฮิสโทแกรม (histogram) – แสดงความถี่ของสิ่งที่สนใจ
แผนภาพกล่อง (box plot) – แสดงข้อมูลของคุณลักษณะพิเศษแยกกลุ่มกัน
แผนภาพการกระจาย (scatter plot) – แสดงความสัมพันธ์ระหว่าง 2 คุณลักษณะที่สนใจ
ในกรณีที่ข้อมูลมีปริมาณมากเกินกว่าที่โปรแกรมสำเร็จรูปจะสามารถจัดเก็บหรือประมวลผล ต้องอาศัยวิธีการนำเข้าและประมวลผลข้อมูลผ่านโปรแกรมภาษา หรือโปรแกรมสำเร็จรูปเฉพาะด้านวิทยาการข้อมูล (เช่น ภาษา R, ภาษา Python) โดยมีการนำเข้าไฟล์ข้อมูลประเภท .xls หรือ .csv เพื่อสร้างเป็นโครงสร้างข้อมูลที่มีลักษณะคล้ายตาราง แล้วจึงสามารถประมวลผลข้อมูลเพื่อแสดงผลเป็นภาพ
7 ภาษาโปรแกรมมิ่งที่ Data Scientist ต้องรู้
แบบฝึกหัดการสำรวจข้อมูล ให้นักเรียนทำได้ 3 ครั้ง
2.3 ข้อมูลส่วนบุคคล (Personal Information)
ข้อมูลส่วนบุคคล เป็นข้อมูลเกี่ยวกับสิ่งที่เฉพาะตัวของบุคคล เช่น การศึกษา ฐานะการเงิน ประวัติสุขภาพ ประวัติอาชญากรรม ประวัติการทำงาน หรือประวัติกิจกรรมต่างๆ ที่มีชื่อของบุคคลนั้นหรือมีหมายเลขรหัส หรือสิ่งที่บอกลักษณะอื่นที่ทำให้รู้ตัวตนบุคคลนั้นได้ เช่น ลายนิ้วมือ ข้อมูลเสียง รูปถ่าย เป็นต้น
ข้อมูลเหล่านี้หากมีผู้อื่นทราบนอกจากเจ้าของข้อมูล อาจทำให้เกิดการปลอมแปลงตัวตน จึงต้องระมัดระวังไม่ให้คนอื่นนำข้อมูลไปใช้ได้ อีกทั้งข้อมูลส่วนบุคคลเหล่านี้ มีประโยชน์และมูลค่าทางธุรกิจ เช่น บริษัทสินเชื่อสามารถใช้ข้อมูลฐานะการเงินเพื่อนำเสนอผลิตภัณฑ์ที่ตรงความต้องการของลูกค้า, บริษัทขายยามีประวัติสุขภาพ สามารถโฆษณายาที่เกี่ยวข้องกับประวัติการเจ็บป่วยของเจ้าของข้อมูล
ข้อมูลส่วนบุคคลหลายคุณลักษณะ อาจบ่งชี้ถึงทัศนคติและความเชื่อ เช่น ข้อมูลการกดชื่นชอบ (like) ต่อเรื่องต่างๆ ในระบบเครือข่ายสังคม ชี้ให้เห็นว่าประเด็นสังคมด้านใดที่กำลังอยู่ในความสนใจ หากทีมงานหาเสียงของพรรคการเมืองต่างๆ สามารถเข้าถึงข้อมูลเหล่านี้ ก็จะสามารถออกแบบนโยบายของผู้สมัครรับการเลือกตั้งที่เหมาะสมกับความต้องการของสังคม ณ ขณะนั้น ทำให้มีโอกาสที่ผู้สมัครรายนั้นจะได้รับคะแนนการเลือกตั้งที่สูงขึ้น
ปกติแล้วผู้ให้บริการต้องเก็บข้อมูลส่วนตัวของผู้ใช้อย่างเป็นความลับ แต่ในบางกรณีข้อมูลอาจถูกเข้าถึงได้โดยบุคคลภายนอก เนื่องจากความผิดพลาดของการรักษาความปลอดภัย หรือความประมาทเลินเล่อของเจ้าของข้อมูล
สรุปใจความสำคัญของ พ.ร.บ. คุ้มครองข้อมูลส่วนบุคคล พ.ศ. 2562 ที่ผู้ประกอบการควรรู้
แบบฝึกหัดข้อมูลส่วนตัว ให้นักเรียนทำได้ 3 ครั้ง
แบบทดสอบท้ายบทที่ 2 การเก็บรวบรวมและสำรวจข้อมูล ให้นักเรียนทำในวันจันทร์ ที่ 25 ม.ค. 2564
เวลา 14.00 - 15.00 น. แบบทดสอบท้ายบททำได้ 1 ครั้ง ในวันและเวลาเท่านั้นนะคะ
ขอแก้ไขจากที่ทำข้อสอบท้ายบทได้ 2 ครั้ง ให้เหลือสอบได้ 1 ครั้งเท่านั้นค่ะ ขอบคุณที่สนใจเรียนคะ
ขอขอบคุณเวปไซต์
https://itpoj.com/2020/07/15/datacollectionandsurvey/
https://sites.google.com/a/ppk.ac.th/comppk_krunink/
และทุกเวปไซต์ที่ผู้จัดทำเวปไซต์นี้ได้นำข้อมูลมาเพื่อการศึกษา online ในครั้งนี้คะ