การเก็บรวบรวมและสำรวจข้อมูล
การเก็บรวบรวมและสำรวจข้อมูล
การเก็บรวบรวมข้อมูล
ขั้นตอนการเก็บรวบรวมข้อมูล
1.การรวบรวมข้อมูล
2.การทำความสะอาดข้อมูล
3.การแปลงข้อมูล
4.การเชื่อมโยงข้อมูล
5.การสำรวจข้อมูล
การรวบรวมข้อมูล
การเก็บรวบรวมข้อมูลทุติยภูมิ ต้องกำหนดเป้าหมายให้ชัดเจนว่าจะนำข้อมูลที่รวบรวมได้ไปใช้ในเรื่องใด และจะวิเคราะห์อย่างไร เพื่อให้ได้ผลลัพธ์ตามที่ต้องการ
ข้อมูลทุติยภูมิ เป็นข้อมูลที่มีการเผยแพร่บนอินเทอร์เน็ต และอยู่ในหลากหลายรูปแบบ (format)
-ไฟล์นามสกุล xls , xlsx หรือ odp เป็นไฟล์ที่ได้จากโปรแกรมตารางทำงาน หรือนามสกุล csv เป็นไฟล์แบบข้อความ (text) สามารถดาวน์โหลดไปใช้ได้โดยไม่ต้องเขียนโปรแกรมเพิ่มเติม
-ไฟล์นามสกุล pdf สามารถดาวน์โหลดได้ แต่นำข้อมูลไปใช้งานต่อได้ยาก เนื่องจากมีกระบวนการซับซ้อนในการแปลงไฟล์ให้อยู่ในรูปแบบที่สามารถนำไปใช้คำนวณได้
การเลือกใช้แหล่งข้อมูลที่ไม่เหมาะสมหรือมีการบิดเบือน อาจทำให้ข้อสรุปที่ได้ผิดพลาดหรือชี้นำผิดทาง ทำให้เกิดอันตรายและสร้างความเสียหายในรูปแบบต่างๆ ได้
การพิจารณาความเหมาะสมของแหล่งข้อมูลมี 5 ด้าน
1.ความทันสมัยของข้อมูล (Currency) ควรตรวจสอบว่าข้อมูลเผยแพร่เมื่อใด สำรวจและปรับปรุงเมื่อใด นอกจากนี้ในปัญหาที่สนใจ ควรตรวจสอบว่าสามารถใช้ข้อมูลที่เผยแพร่นานมาแล้วได้หรือไม่ (ข้อมูลที่เกี่ยวข้องกับงานวิจัยไม่ควรนานเกิน 10 ปี)
2.ความสอดคล้องกับการใช้งาน (Relevance) ควรตรวจสอบว่าข้อมูลเกี่ยวข้องกับปัญหาที่ต้องการหรือไม่
3.ความน่าเชื่อถือของแหล่งข้อมูล (Authority) พิจารณาจากผู้เผยแพร่มีความชำนาญพอที่จะให้ข้อมูลในเรื่องดังกล่าวหรือไม่ สามารถติดต่อผู้เผยแพร่ได้หรือไม่
4.ความถูกต้องแม่นยำ (Accuracy) ตรวจสอบความถูกต้องพื้นฐานของข้อมูล ว่ามีการนำข้อมูลไปอ้างอิงที่อื่นหรือไม่ หรือมีการตรวจสอบยืนยันความถูกต้องของข้อมูลหรือไม่
5.จุดมุ่งหมายของแหล่งข้อมูล (Purpose) ตรวจสอบว่าข้อมูลดังกล่าวถูกพัฒนาขึ้นเพื่อเป้าหมายใด
แอตทริบิวต์ (attribute)
เป็นคุณลักษณะเฉพาะที่ระบุคุณสมบัติของวัตถุ สิ่งของ หรือสิ่งที่เราสนใจ
IoT
เทคโนโลยีอินเทอร์เน็ตของสรรพสิ่ง (Internet of Things) หรือไอโอที (IoT) เป็นเครือข่ายของวัตถุ อุปกรณ์ พาหนะ สิ่งปลูกสร้าง และสิ่งของอื่นๆ ที่มีการฝังวงจรอิเล็กทรอนิกส์ ซอฟต์แวร์ เซ็นเซอร์ และเชื่อมต่อกับอินเทอร์เน็ต สิ่งเหล่านี้สามารถเก็บบันทึกและแลกเปลี่ยนข้อมูลได้ ทำให้เข้าใจสภาพแวดล้อมที่อยู่ห่างไกลได้แบบเรียลไทม์ โดยไม่ต้องไปอยู่ในสถานที่จริง
การเตรียมข้อมูล (data preparation)
เพื่อเตรียมพร้อมสำหรับการประมวลผล ซึ่งข้อมูลที่จะใช้ในการประมวลผลนี้จะต้องมีความถูกต้อง ครบถ้วน สมบูรณ์ และไม่มีข้อมูลที่มีค่าผิดปกติ ดังนั้น ก่อนจะนำข้อมูลไปใช้ จะต้องมีการจัดเตรียมข้อมูล และทำความสะอาดข้อมูล
ข้อมูลที่รวบรวมมานั้น อาจมีข้อผิดพลาดซึ่งไม่เหมาะสมที่จะนำไปประมวลผล เช่น มีค่าว่าง มีค่าที่อยู่นอกขอบเขตค่าที่เป็นไปได้ หน่วยนับไม่ตรงกัน ค่าผิดปกติ (outlier) ตลอดจนมีรูปแบบที่ต่างกัน
ข้อผิดพลาดเกิดจากหลายสาเหตุ เช่น ผู้ให้ข้อมูลกรอกข้อมูลไม่ครบถ้วน ผู้บันทึกข้อมูลพิมพ์ข้อมูลผิดพลาด หรือการขาดข้อกำหนดในการบันทึกข้อมูลที่ตรงกัน
การแก้ไขข้อมูลเมื่อพบว่ามีข้อผิดพลาด หากสามารถทำการแก้ไขได้ ให้ดำเนินการแก้ไขให้ถูกต้อง หรือลบข้อมูลนั้นออกไปถ้าไม่ส่งผลกระทบต่อการประมวลผล
เป้าหมายของการแปลงข้อมูล คือ เตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมสำหรับการประมวลผล โดยรูปแบบของข้อมูลที่พร้อมประมวลผลในโปรแกรมตารางทำงาน โดยวิธีการ
1) การลดจำนวนข้อมูล เป็นการเลือกเฉพาะข้อมูลที่สนใจ เพื่อจัดเตรียมข้อมูลก่อนการประมวลผล
2) การเพิ่มจำนวนข้อมูล เป็นการเพิ่มคอลัมน์เพื่อนำผลลัพธ์จากการประมวลผลนั้นไปประมวลผลต่อ
3) การรวมข้อมูล เป็นการจัดกลุ่มข้อมูลที่มีค่าสอดคล้องกับเงื่อนไขที่กำหนดในแอตทริบิวต์ที่สนใจ
การเชื่อมโยงข้อมูลจากหลายแหล่งเข้าด้วยกัน ทำได้โดยใช้แอตทริบิวต์เดียวกันจากทั้งสองแหล่งเป็นตัวเชื่อม เช่น ข้อมูลรายจ่ายเฉลี่ยต่อครัวเรือน และข้อมูลรายได้เฉลี่ยต่อครัวเรือน มีแอตทริบิวต์ที่เหมือนกันคือ จังหวัด ดังนั้น จะใช้จังหวัดเป็นตัวเชื่อมโยงข้อมูลจากทั้งสองแหล่ง
การสำรวจข้อมูล (data exploration)
ขั้นตอนหลักของกระบวนการการสำรวจข้อมูล คือ การทดลองวาดแผนภาพ หรือกราฟของข้อมูลในรูปแบบต่างๆ เพื่อพิจารณาภาพรวมของข้อมูล ระหว่างการสำรวจอาจจะพบข้อผิดพลาดหรือปัญหาอื่นๆ จากการตั้งคำถาม หรือการรวบรวมข้อมูล ซึ่งทำให้ต้องกลับไปดำเนินการแก้ไขให้ถูกต้อง
เครื่องมือพื้นฐานในการสำรวจข้อมูล เช่น กราฟเส้น ฮิสโทแกรม แผนภาพกล่อง หรือแผนภาพการกระจาย
ผลจากการสำรวจข้อมูลโดยใช้กราฟเส้น จะเห็นว่ารายได้เฉลี่ยต่อครัวเรือนนั้นแตกต่างกันตามภูมิภาค โดยภาพรวมแล้วรายได้เฉลี่ยต่อครัวเรือนมีแนวโน้มเพิ่มขึ้นในทุกภาคจนถึงปี พ.ศ. 2556 แต่สำหรับภาคกลางตอนพิเศษ (รวมกรุงเทพมหานครและจังหวัดใกล้เคียง) รายได้มีแนวโน้มลดลงหลังปี พ.ศ. 2556
เพื่อแสดงความถี่ของสิ่งที่สนใจ จากกราฟจังหวัดส่วนใหญ่มีรายได้เฉลี่ยต่อครัวเรือนอยู่ระหว่าง 18,000 - 24,000 บาท และมี 2 จังหวัดที่มีรายได้เฉลี่ยต่อครัวเรือนสูงกว่าจังหวัดอื่นมาก คือ อยู่ที่ประมาณ 39,000 - 43,000 บาทต่อเดือน
3. การสำรวจข้อมูลโดยใช้แผนภาพการกระจาย (scatter plot)
เพื่อแสดงความสัมพันธ์ระหว่าง 2 แอตทริบิวต์ เช่น รายได้เฉลี่ยต่อครัวเรือน และรายจ่ายเฉลี่ยต่อครัวเรือน ถ้าต้องการสำรวจว่าทั้ง 2แอตทริบิวต์นี้มีความสัมพันธ์กันหรือไม่ จากแผนภาพแสดงให้เห็นว่ามีความสัมพันธ์ระหว่างรายได้และรายจ่าย โดยมีแนวโน้มว่าถ้ารายได้เพิ่มขึ้น รายจ่ายก็จะเพิ่มขึ้นด้วย
4. การสำรวจข้อมูลโดยใช้แผนภาพกล่อง
บางครั้งภายในข้อมูลชุดเดียวอาจประกอบไปด้วยกลุ่มย่อยหลายๆ กลุ่ม ซึ่งทำให้สามารถพิจารณาข้อมูลแต่ละกลุ่มแยกกันได้ และอาจเห็นลักษณะพิเศษบางอย่าง เช่น ในกรณีของข้อมูลรายได้ในแต่ละจังหวัด มีการนำเสนอรายได้เฉลี่ยต่อครัวเรือนรายภาค จากแผนภาพภาคกลางนั้นแม้จะมีความแตกต่างของรายได้ไม่มากนัก แต่จะมีความแตกต่างระหว่างรายได้สูงสุดกับรายได้ต่ำสุดมาก นอกจากนี้จังหวัดที่มีรายได้สูงสุดของภาคกลาง ยังมีรายได้ใกล้เคียงกับรายได้สูงสุดของกรุงเทพฯ และจังหวัดใกล้เคียงด้วย
5. การสำรวจข้อมูลด้วยการเขียนโปรแกรม
การนำเข้าข้อมูลสู่โปรแกรมที่ใช้สำหรับการประมวลผลโดยถ้าข้อมูลมีปริมาณไม่มาก ในขั้นตอนการเตรียมข้อมูล สามารถเตรียมข้อมูลจากไฟล์ที่อยู่ในรูปแบบ xls หรือ csv ก่อนเริ่มการนำเข้าข้อมูล จากนั้นจึงเลือกใช้การประมวลผลด้วยโปรแกรมสำเร็จรูป หรือการเขียนโปรแกรม แต่หากข้อมูลมีปริมาณมากเกินกว่าที่โปรแกรมสำเร็จรูปจะสามารถจัดเก็บหรือประมวลผลได้ จำเป็นต้องใช้วิธีการนำเข้าและประมวลผลข้อมูลด้วยโปรแกรมภาษา หรือใช้โปรแกรมสำเร็จรูปเฉพาะสำหรับงานด้านวิทยาการข้อมูล
ข้อมูลส่วนบุคคล
หมายถึง ข้อมูลเกี่ยวกับสิ่งเฉพาะตัวของบุคคล เช่น การศึกษา ฐานะการเงิน ประวัติสุขภาพ ประวัติอาชญากรรม ประวัติการทำงาน หรือประวัติกิจกรรมต่างๆ ที่มีชื่อของบุคคลนั้นหรือมีหมายเลขรหัส หรือสิ่งบอกลักษณะอื่นที่ทำให้รู้ตัวบุคคลนั้นได้ เช่น ลายพิมพ์นิ้วมือ ข้อมูลลักษณะเสียง หรือรูปถ่าย
ร่างพระราชบัญญัติคุ้มครองข้อมูลส่วนบุคคล
1. ผู้ควบคุมข้อมูลส่วนบุคคลจะทำการเก็บรวบรวม ใช้ หรือเปิดเผยข้อมูลส่วนบุคคลไม่ได้ หากไม่ได้รับความยินยอมจากเจ้าของข้อมูล
2. ผู้ควบคุมข้อมูลส่วนบุคคล ต้องใช้และเปิดเผยข้อมูลส่วนบุคคลภายใต้วัตถุประสงค์ที่ได้แจ้งขณะเก็บรวบรวม
3. ห้ามไม่ให้ผู้ควบคุมข้อมูลส่วนบุคคล ทำการเก็บรวบรวมข้อมูลส่วนบุคคลโดยไม่ได้รับความยินยอมจากเจ้าของข้อมูล
4. เจ้าของข้อมูลส่วนบุคคลมีสิทธิเข้าถึงข้อมูลส่วนบุคคลที่เกี่ยวข้องกับตน ซึ่งอยู่ในความรับผิดชอบของผู้ควบคุมข้อมูลส่วนบุคคล หรือขอให้เปิดเผยถึงการได้มาซึ่งข้อมูลส่วนบุคคลดังกล่าวที่ตนไม่ได้ให้ความยินยอม
5. ถ้าผู้ควบคุมข้อมูลไม่ปฏิบัติตามหลักเกณฑ์นี้ เจ้าของข้อมูลสามารถขอให้ดำเนินการลบ หรือทำลาย ระงับใช้ชั่วคราว หรือแปลงข้อมูลให้อยู่ในรูปที่ไม่สามารถระบุตัวบุคคลที่เป็นเจ้าของข้อมูลได้
6. กำหนดหน้าที่ผู้ควบคุมข้อมูลส่วนบุคคล เช่น กำหนดให้ผู้ควบคุมข้อมูลส่วนบุคคลดำเนินการเพื่อให้ข้อมูลส่วนบุคคลถูกต้อง ทันสมัย สมบูรณ์ ไม่ก่อให้เกิดความเข้าใจผิด และกำหนดให้ผู้ควบคุมข้อมูลส่วนบุคคลมีมาตรการรักษาความมั่นคงปลอดภัยที่เหมาะสม
7. กำหนดให้มีคณะกรรมการคุ้มครองข้อมูลส่วนบุคคลแห่งชาติ ทำหน้าที่กำหนดแผนยุทธศาสตร์ดำเนินงานด้านการส่งเสริมและการคุ้มครองข้อมูลส่วนบุคคล และมีอำนาจออกประกาศหรือระเบียบเพื่อให้การดำเนินการเป็นไปตามพระราชบัญญัติ มีคณะกรรมการผู้เชี่ยวชาญพิจารณาคำร้องทุกข์ต่างๆ ของบุคคลที่เกี่ยวข้องตามพระราชบัญญัตินี้ รวมทั้งวินิจฉัยข้อพิพาทระหว่างบุคคลฝ่ายต่างๆ ที่เกี่ยวข้อง