ห้องเรียน online ม.5 วิชาวิทยาการคำนวณ

หน่วยที่ 2 การเก็บรวบรวมและสำรวจข้อมูล

2.1 การเก็บรวบรวม

จากการที่ข้อมูลเป็นสิ่งที่มีมูลค่ามหาศาลในปัจจุบัน จึงมีการนำเข้อมูลมาวิเคราะห์หรือประมวลผลให้เกิดประโยชน์กับบุคคล หรือองค์กร แต่การให้ได้มาซึ่งข้อมูลที่เป็นประโยชน์นั้น กระบวนการในการเก็บรวบรวมข้อมูล นับว่าเป็นสิ่งสำคัญ เหมือนกับประโยคที่ว่า Garbage in garbage out : เมื่อนำข้อมูลที่เป็นขยะเข้ามาย่อมได้ข้อมูลที่เป็นขยะออกไปเช่นกัน สำหรับขั้นตอนการรวบรวมข้อมูล จะเป็นการเก็บรวบรวมข้อมูลทุติยภูมิ นักเรียนต้องกำหนดเป้าหมายให้ชัดเจนว่า จะนำข้อมูลที่รวบรวมได้ไปใช้ในเรื่องใด และจะวิเคราะห์อย่างไรเพื่อให้ได้ผลลัพธ์ตามที่ต้องการโดยเป้าหมายนี้จะสามารถบอกได้ว่าข้อมูลที่ต้องการรวบรวมได้จากที่ใด และด้วยวิธีการใด

(ข้อมูลเพิ่มเติม เกี่ยวกับชนิดของข้อมูล >>คลิก )

(ข้อมูลเพิ่มเติม เกี่ยวกับการเก็บข้อมูลปฐมภูมิ คลิก )

แหล่งที่มาของข้อมูล (Source of Data)

ข้อมูลสถิติอาจจำแนกตามแหล่งที่มาได้ 2 ทาง คือ

    1. ข้อมูลปฐมภูมิ (Primary Data) เป็นข้อมูลที่ผู้ใช้หรือหน่วยงานที่ใช้เป็นผู้ทำการเก็บข้อมูลด้วยตนเอง ซึ่งวิธีการเก็บรวบรวมข้อมูลอาจใช้วิธีการสัมภาษณ์ การทดลอง หรือการสังเกตการณ์ ข้อมูลปฐมภูมิเป็นข้อมูลที่มีรายละเอียดตรงตามที่ผู้ใช้ต้องการ แต่มักจะเสียเวลาในการจัดหาและมีค่าใช้จ่ายสูง

    2. ข้อมูลทุติยภูมิ (Secondary Data) เป็นข้อมูลที่ผู้ใช้ไม่ได้เก็บรวบรวมเอง แต่มีผู้อื่นหรือ หน่วยงานอื่นๆ ทำการเก็บรวบรวมไว้แล้ว เช่น จากรายงาน ที่พิมพ์แล้ว หรือยังไม่ได้พิมพ์ของ หน่วยงานของรัฐบาล สมาคม บริษัท สำนักงานวิจัย นักวิจัย วารสาร หนังสือพิมพ์ เป็นต้น การนำเอาข้อมูลเหล่านี้มาใช้เป็นการประหยัดเวลาและค่าใช้จ่าย แต่ในบางครั้งข้อมูลอาจจะไม่ตรงกับความต้องการของผู้ใช้ หรือมีรายละเอียดไม่เพียงพอที่จะนำไปวิเคราะห์ นอกจากนี้ในบางครั้ง ข้อมูลนั้นอาจมีความผิดพลาดและผู้ใช้มักจะไม่ทราบข้อผิดพลาดดังกล่าว ซึ่งอาจมีผลกระทบต่อการสรุปผล ดังนั้น ผู้ที่จะนำข้อมูลทุติยภูมิมาใช้ควรระมัดระวังและตรวจสอบคุณภาพข้อมูลก่อนที่จะนำไปวิเคราะห์

แหล่งข้อมูลทุติยภูมิ

แหล่งข้อมูลทุติยภูมิที่เผยแพร่ของประเทศไทย

หล่งข้อมูลทุติยภูมิที่เผยแพร่ของต่างประเทศที่เผยแพร่ให้ใช้งานฟรี

https://www.kaggle.com/

https://data.worldbank.org/

https://archive.ics.uci.edu/ml/index.php

ความเหมาะสมของแหล่งข้อมูล

การเลือกใช้แหล่งข้อมูลที่ไม่เหมาะสมหรือมีการบิดเบือน อาจทํา ให้ข้อสรุปที่ได้ผิดพลาดหรือชี้นํา

ผิดทาง นอกจากนี้อาจทํา ให้เกิดอันตรายและสร้างความเสียหายในรูปแบบต่าง ๆ ได้

ความทันสมัยของข้อมูล (currency)

ควรตรวจสอบว่าข้อมูลเผยแพร่เมื่อใด สํารวจและปรับปรุงเมื่อใด นอกจากนี้ในปัญหาที่สนใจ ควรตรวจสอบว่าสามารถใช้ข้อมูลที่เผยแพร่นานมาแล้วได้หรือไม่

ความสอดคล้องกับการใช้งาน (relevance)

ควรตรวจสอบว่าข้อมูลเกี่ยวข้องกับปัญหาที่ต้องการหรือไม่

ความน่าเชื่อถือของแหล่งข้อมูล (authority)

พิจารณาความน่าเชื่อถือของแหล่งข้อมูล ผู้เผยแพร่มีความชํา นาญพอที่จะให้ข้อมูลในเรื่องดังกล่าวหรือไม่สามารถติดต่อผู้เผยแพร่ได้หรือไม่

ความถูกต้องแม่นยํา (accuracy)

ตรวจสอบความถูกต้องพื้นฐานของข้อมูล ตรวจสอบว่ามีการนํา ข้อมูลไปอ้างอิงที่อื่น

หรือไม่ หรือมีการตรวจสอบยืนยันความถูกต้องของข้อมูลหรือไม่

จุดมุ่งหมายของแหล่งข้อมูล (purpose)

ตรวจสอบว่าข้อมูลดังกล่าวถูกพัฒนาขึ้นเพื่อเป้าหมายใด เช่น เพื่อใช้ในการรณรงค์ เผยแพร่เพื่อการโฆษณา หรือเพื่อการศึกษาอื่น ๆ

แบบฝึกหัดการเก็บรวบรวมข้อมูล ให้นักเรียนทำได้ 3 ครั้ง

2.2 การเตรียมข้อมูล (data preparation)

>> สื่อการเรียนรู้เรื่องการเตรียมข้อมูล (Data Preparation)

วิดีโอ YouTube

2.2.1 การทำความสะอาดข้อมูล (data cleansing)

ข้อมูลที่รวบรวมมานั้น อาจมีข้อผิดพลาดซึ่งไม่เหมาะต่อการนำไปประมวลผล ได้แก่

    • มีค่าว่าง

    • มีค่าที่อยู่นอกขอบเขตจากค่าที่เป็นไปได้

    • ใช้หน่วยนับผิด

    • เป็นค่าผิดปกติ (outlier)

    • ใช้รูปแบบข้อมูลแตกต่างกัน

    • พิมพ์ผิด

ซึ่งสาเหตุเกิดจากผู้ให้ข้อมูลกรอกข้อมูลไม่ครบถ้วน ผู้บันทึกข้อมูลพิมพ์ข้อมูลผิดพลาด หรือการขาดข้อกำหนดในการบันทึกข้อมูล การแก้ไขข้อมูลเมื่อพบว่ามีข้อผิดพลาด สามารถทำได้โดยการแก้ไขให้ถูกต้อง หรือลบข้อมูลที่ไม่ส่งผลกระทบต่อการประมวลผล หากข้อมูลมีจำนวนไม่มาก สามารถใช้คนดำเนินการตรวจสอบและแก้ไขข้อมูล แต่หากข้อมูลมีจำนวนมาก ต้องอาศัยโปรแกรมคอมพิวเตอร์ในการดำเนินการจัดเตรียมข้อมูลให้สอดคล้องกับเงื่อนไข และรูปแบบข้อมูลที่กำหนดในโปรแกรม

2.2.2 การแปลงข้อมูล (data transformation)

เป็นการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมสำหรับการประมวลผล โดยรูปแบบของข้อมูลที่พร้อมประมวลผลในโปรแกรมตารางทำงานนั้น แต่ละแถว (บรรทัด) คือข้อมูล 1 รายการ และแต่ละคอลัมน์ (หลัก) คือ คุณลักษณะ หรือแอตทริบิวต์

    • การลดจำนวนข้อมูล

    • การเพิ่มจำนวนข้อมูล

    • การรวมข้อมูล

2.2.3 การเชื่อมโยงข้อมูล (combining data)

กรณีที่ต้องการใช้ข้อมูลของกลุ่มตัวอย่างที่มีการเผยแพร่จากหลายแหล่ง หรือมีหลายไฟล์ข้อมูล ต้องทำการเชื่อมโยงข้อมูลจากหลายแหล่งเข้าด้วยกัน โดยใช้คุณลักษณะหรือแอตทริบิวต์ ที่มีอยู่รวมกันของหลายแหล่งข้อมูล เป็นตัวเชื่อมโยง

แบบฝึกหัดการเตรียมข้อมูล ให้นักเรียนทำได้ 3 ครั้ง

2.3 การสำรวจข้อมูล (data exploration)

กระบวนการสำรวจข้อมูล มีขั้นตอนหลักๆ คือการวาดแผนภาพ หรือกราฟของข้อมูลในรูปแบบต่างๆ เพื่อพิจารณาภาพรวมของข้อมูล ระหว่างการสำรวจข้อมูลอาจพบข้อผิดพลาดหรือปัญหาอื่นจากการตั้งคำถาม หรือการรวบรวมข้อมูล ซึ่งต้องกลับไปดำเนินการแก้ไขข้อมูลให้ถูกต้อง เช่น พบว่ามีข้อมูลสูญหาย ผิดรูปแบบ มีค่าผิดปกติ

เครื่องมือพื้นฐานในการสำรวจข้อมูล

การสร้างกราฟใน Excel

ในกรณีที่ข้อมูลมีปริมาณมากเกินกว่าที่โปรแกรมสำเร็จรูปจะสามารถจัดเก็บหรือประมวลผล ต้องอาศัยวิธีการนำเข้าและประมวลผลข้อมูลผ่านโปรแกรมภาษา หรือโปรแกรมสำเร็จรูปเฉพาะด้านวิทยาการข้อมูล (เช่น ภาษา R, ภาษา Python) โดยมีการนำเข้าไฟล์ข้อมูลประเภท .xls หรือ .csv เพื่อสร้างเป็นโครงสร้างข้อมูลที่มีลักษณะคล้ายตาราง แล้วจึงสามารถประมวลผลข้อมูลเพื่อแสดงผลเป็นภาพ

7 ภาษาโปรแกรมมิ่งที่ Data Scientist ต้องรู้

แบบฝึกหัดการสำรวจข้อมูล ให้นักเรียนทำได้ 3 ครั้ง

2.3 ข้อมูลส่วนบุคคล (Personal Information)

ข้อมูลส่วนบุคคล เป็นข้อมูลเกี่ยวกับสิ่งที่เฉพาะตัวของบุคคล เช่น การศึกษา ฐานะการเงิน ประวัติสุขภาพ ประวัติอาชญากรรม ประวัติการทำงาน หรือประวัติกิจกรรมต่างๆ ที่มีชื่อของบุคคลนั้นหรือมีหมายเลขรหัส หรือสิ่งที่บอกลักษณะอื่นที่ทำให้รู้ตัวตนบุคคลนั้นได้ เช่น ลายนิ้วมือ ข้อมูลเสียง รูปถ่าย เป็นต้น

ข้อมูลเหล่านี้หากมีผู้อื่นทราบนอกจากเจ้าของข้อมูล อาจทำให้เกิดการปลอมแปลงตัวตน จึงต้องระมัดระวังไม่ให้คนอื่นนำข้อมูลไปใช้ได้ อีกทั้งข้อมูลส่วนบุคคลเหล่านี้ มีประโยชน์และมูลค่าทางธุรกิจ เช่น บริษัทสินเชื่อสามารถใช้ข้อมูลฐานะการเงินเพื่อนำเสนอผลิตภัณฑ์ที่ตรงความต้องการของลูกค้า, บริษัทขายยามีประวัติสุขภาพ สามารถโฆษณายาที่เกี่ยวข้องกับประวัติการเจ็บป่วยของเจ้าของข้อมูล

ข้อมูลส่วนบุคคลหลายคุณลักษณะ อาจบ่งชี้ถึงทัศนคติและความเชื่อ เช่น ข้อมูลการกดชื่นชอบ (like) ต่อเรื่องต่างๆ ในระบบเครือข่ายสังคม ชี้ให้เห็นว่าประเด็นสังคมด้านใดที่กำลังอยู่ในความสนใจ หากทีมงานหาเสียงของพรรคการเมืองต่างๆ สามารถเข้าถึงข้อมูลเหล่านี้ ก็จะสามารถออกแบบนโยบายของผู้สมัครรับการเลือกตั้งที่เหมาะสมกับความต้องการของสังคม ณ ขณะนั้น ทำให้มีโอกาสที่ผู้สมัครรายนั้นจะได้รับคะแนนการเลือกตั้งที่สูงขึ้น

ปกติแล้วผู้ให้บริการต้องเก็บข้อมูลส่วนตัวของผู้ใช้อย่างเป็นความลับ แต่ในบางกรณีข้อมูลอาจถูกเข้าถึงได้โดยบุคคลภายนอก เนื่องจากความผิดพลาดของการรักษาความปลอดภัย หรือความประมาทเลินเล่อของเจ้าของข้อมูล

สรุปใจความสำคัญของ พ.ร.บ. คุ้มครองข้อมูลส่วนบุคคล พ.ศ. 2562 ที่ผู้ประกอบการควรรู้

แบบฝึกหัดข้อมูลส่วนตัว ให้นักเรียนทำได้ 3 ครั้ง

แบบทดสอบท้ายบทที่ 2 การเก็บรวบรวมและสำรวจข้อมูล ให้นักเรียนทำในวันจันทร์ ที่ 25 ม.ค. 2564

เวลา 14.00 - 15.00 น. แบบทดสอบท้ายบททำได้ 1 ครั้ง ในวันและเวลาเท่านั้นนะคะ

ขอแก้ไขจากที่ทำข้อสอบท้ายบทได้ 2 ครั้ง ให้เหลือสอบได้ 1 ครั้งเท่านั้นค่ะ ขอบคุณที่สนใจเรียนคะ

ขอขอบคุณเวปไซต์

https://itpoj.com/2020/07/15/datacollectionandsurvey/

https://sites.google.com/a/ppk.ac.th/comppk_krunink/

และทุกเวปไซต์ที่ผู้จัดทำเวปไซต์นี้ได้นำข้อมูลมาเพื่อการศึกษา online ในครั้งนี้คะ