ความหมายของข้อมูล
ในปัจจุบันการดำเนินชีวิตต้องอาศัยข้อมูลเป็นหลัก จึงมีการนำเทคโนโลยีมาช่วยจัดการข้อมูลอย่างมาก ดังจะเห็นได้จากการแข่งขันการให้บริการของธนาคารพาณิชย์ การใช้ข้อมูลในการตัดสินใจลงทุนซื้อขายหลักทรัพย์ ตลอดจนการดำเนินธุรกิจในยุคนี้ข้อมูลเป็นหัวใจสำคัญของการดำเนินงาน เป็นแหล่งความรู้ที่ใช้ประกอบการตัดสินใจ บริษัทหรือองค์กรจึงดำเนินการอย่างจริงจังให้ได้มาซึ่งข้อมูล และปกป้องดูแลข้อมูลของตนเองเป็นอย่างดี เพราะข้อมูลเป็นสิ่งมีมูลค่ามหาศาล จึงมีการนำข้อมูลมาวิเคราะห์หรือประมวลผล ให้เกิดประโยชน์กับบุคคลหรือองค์กร แต่การได้มาซึ่งข้อมูลที่เป็นประโยชน์นั้น กระบวนการในการเก็บรวบรวมข้อมูล จึงเป็นสิ่งสำคัญ เหมือนกับประโยคที่ว่า “garbage in garbage out”
กรรมวิธีการรวบรวมข้อมูลเป็นจุดเริ่มต้นของการดำเนินงาน การรวบรวมข้อมูลที่ดีจะได้ข้อมูลรวดเร็ว ถูกต้องแม่นยำ ครบถ้วน ดังนั้นผู้อำเนินการต้องให้ความสำคัญที่จุดนี้โดยเฉพาะความรวดเร็ว ความรวดเร็วของการเก็บข้อมูลจึงผูกพันกับเทคโนโลยีซึ่งมีหลากหลายวิธี เช่น การใช้ไปรษณีย์อิเล็กทรอนิกส์ (electronic mail หรือ E-mail) การเชื่อม ต่อกับระบบปลายทางเพื่อรับข้อมูล การใช้โทรสาร การใช้ระบบอ่านข้อมูลอัตโนมัติ เช่น เครื่องอ่านรหัสแท่งด้วยแสง (bar-code reader) รวมทั้งการสืบค้นจากแหล่งข้อมูลต่าง ๆ นั่นเอง
ทบทวนความรู้ก่อนเรียน
2.1 การเก็บรวบรวมข้อมูล
ปัจจุบันแหล่งข้อมูลทุติยภูมิมีการเผยแพร่บนอินเทอร์เน็ต และอยู่ในหลายรูปแบบ (format) ในกรนำไปใช้งานอาจมีวิธีจัดการข้อมูลที่แตกต่างกันขึ้นอยู่กับรูปแบบที่เผยแพร่ ดังนี้
1) ไฟล์ เป็นไฟล์ที่มีนามสกุล xls, xlsx odp เป็นไฟล์ทีได้จากโปรแกรมการทำงาน หรือนามสกุล csv เป็นไฟล์แบบข้อความ (text) สามารถดาวน์โหลดไปใช้งานได้ ส่วนไฟล์ที่มีนามสกุล pdf สามารถนำไปใช้งานต่อได้แต่ค่อนข้างยาก นอกจากนี้ ยังมีข้อมูลที่ต้องเขียนโปรแกรมในการนำข้อมูลเหล่านั้นมาใช้ เช่น ถ้าต้องใช้ข้อมูลจากเฟซบุ๊ก หรือ ทวิตเตอร์ (Twitter) จะต้องเขียนโปรแกรมผ่านวิธีการเชื่อมต่อเฉาะ (API : Application Programming Interface) เพื่อเรียกข้อมูลไปใช้ ซึ่งต้องเขียนขึ้นเอง
2) รายงานหรือตารางบนเว็บไซต์ มักเป็นข้อมูลที่ผ่านการสรุปมาแล้ว และไม่มีข้อมูลดิบประกอบ ทำให้ยากในการนำข้อมูลไปวิเคราะห์ในประเด็นอื่น
2.1.1 แหล่งข้อมูลทุติยภูมิ ประเทศไทยมีเว็บไซต์ให้บริการข้อมูล สถิติต่าง ๆ ซึ่งเป็นศูนย์กลางข้อมูลภาครัฐเพื่อประโยชน์ต่อสาธารณชน สามารถค้นหาและเข้าถึงได้ง่าน ได้แก่ เว็บไซต์ data.go.th (https://data.go.th/)
แหล่งข้อมูลทุติยภูมิที่เผยแพร่ในไทย
สำนักสถิติแห่งชาติ (http://www.nso.go.th) - ข้อมูลสถิติประชาชน ข้อมูลแรงงาน การศึกษา ศาสนา ศิลปวัฒนธรรม สุขภาพ
สำนักงานพัฒนารัฐบาลดิจิทัล (องค์กรมหาชน) (http://data.go.th) -ข้อมูลที่รวบรวมจากแหล่งต่าง ๆ จัดเป็นหมวดหมู่
สำนักงานคณะกรรมการพัฒนาการเศรษฐกิจและสังคมแห่งชาติ (http://www.nesdb.go.th) - ข้อมูลด้านเศรษฐกิจและสังคม ข้อมูลด้านทรัพยากรธรรมชาติและสิ่งแวดล้อม
แหล่งข้อมูลทุติยภูมิต่างประเทศที่เปิดเผยให้สาธารณะสามารถเข้าถึงได้ทางอินเทอร์เน็ต
-สหราชอาณาจักร (https://data.gov.uk/)
- สหภาพยุโรป (https://data.europa.eu/euodp/en/data/)
- องค์การสหประชาชาติ (http://data.un.org/)
เกร็ดน่ารู้ : แอตทริบิวต์
แอตทริบิวต์ (attribute) คือ คุณลักษณะเฉพาะที่ระบุคุณสมบัติของวัตถุ สิ่งของ หรือสิ่งที่เราสนใจ โดยค่าที่เก็บของแต่ละแอตทริบิวต์ สามารถใช้อ้างอิงไปถึงวัตถุ สิ่งของหรือสิ่งที่เราสนใจได้
แอตทริบิวต์ แสดงคุณลักษณะเฉพาะ เช่น ชื่อ เพศ อายุ ส่วนสูง น้ำหนัก ขนาดรองเท้า รายได้ รายจ่าย ฯลฯ
แหล่งข้อมูลทุติยภูมิ ที่เผยแพร่ข้อมูลสาธารณะและสามารถนำมาใช้เพื่อประโยชน์ในการเรียนรู้ด้านวิทยาการข้อมู ที่เกี่ยวข้องในระดับนานาชาติ เช่น เว็บไซต์ Kaggle, Data World, UCI Machine Learning Repository
2.1.2 ความเหมาะสมของแหล่งข้อมูล การเลือกใช้แหล่งข้อมูลที่ไม่เหมาะสม หรือมีการบิดเบือน อาจทำให้ข้อสรุปที่ได้ผิดพลาดหรือชี้นำผิดทาง อาจทำให้เกิดอันตรายและสร้างความเสียหายในรูปแบบต่าง ๆ ได้ ดังนั้นนักเรียนควรใช้มุมมอง 5 ด้านประกอบการพิจารณาความเหมาะสมของแหล่งข้อมูล ดังนี้
2.2 การเตรียมข้อมูล (data preparation)
เมื่อเลือกแหล่งข้อมูลและรวบรวมข้อมูลได้แล้ว ต่อไปคือ การเตรียมข้อมูลเพื่อเตรียมพร้อมสำหรับการประมวลผล ข้อมูลที่จะใช้ในการประมวลผลต้องถูกต้อง ครบถ้วน สมบูรณ์และไม่มีข้อมูลที่ผิดปกติ ก่อนจะนำข้อมูลไปใช้จะต้องจัดเตรียมข้อมูลและทำความสะอาดข้อมูล
2.2.1 การทำความสะอาดข้อมูล (data cleansing) ข้อมูลที่รวบรวมมาอาจมีข้อผิดพลาด ซึ่งไม่เหมาะที่จะนำไปประมวลผล เช่น มีค่าว่าง มีค่าที่อยู่นอกขอบเขตค่าที่เป็นไปได้ หน่วยนับไม่ตรงกัน ค่าผิดปกติ (outlier) ตลอดจนมีรูปแบบที่ต่างกัน ซึ่งอาจเกิดจากหลายสาเหตุ เช่น กรอกข้อมูลไม่ครบถ้วน ผู้บันทึกข้อมูลพิมพ์ข้อมูลผิดพลาด หรือการขาดข้อกำหนดในการบันทึกข้อมูลที่ตรงกัน
การแก้ไขข้อมูลเมื่อพบว่ามีข้อผิดพลาด หากสามารถแก้ไขได้ ให้ดำเนินการแก้ไขให้ถูกต้อง หรือลบข้อมูลนั้นออกไปถ้าไม่ส่งผลกระทบต่อการประมวลผล หากข้อมูลจำนวนไม่มากอาจจะใช้คนดำเนินการตรวจสอบและแก้ไขข้อมูลได้ แต่ถ้าข้อมูลมีจำนวนมาก จะต้องใช้โปรแกรมคอมพิวเตอร์ดำเนินการจัดเตรียมข้อมูลให้สอดคล้องกับเงื่อนไข และรูปแบบของข้อมูลที่กำหนดในโปรแกรม
เมื่อได้ข้อมูลที่ผ่านการตรวจสอบและทำความสะอาดแล้ว นักเรียนอาจประมวลผลข้อมูลด้วยการเขียนโปรแกรม หรือใช้โปรแกรมสำเร็จรูป เช่น ประมวลผลด้วยโปรแกรมตารางทำงาน Microsoft Excel, LiberOffice Calc หรือ Google Sheet โดยจัดการข้อมูลที่มาจากหลายแหล่งให้เป็นระเบียบในรูปแบบเดียวกันเพื่อให้สามารถประมวลผลข้อมูลได้ถูกต้อง
2.2.2 การแปลงข้อมูล (data transformation) คือ การเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมสำหรับการประมวลผลข้อมูล รูปแบบของข้อมูลที่พร้อมประมวลผลในโปรแกรมตารางทำงานจะเป็นตารางที่แต่ละแถวคือข้อมูลหนึ่งตัวอย่าง และแต่ละคอลัมน์คือข้อมูลแอตทริบิวต์ของตัวอย่างนั้น เพื่อให้มีความเข้าใจตรงกันควรเก็บข้อมูลคำอธิบายถึงชื่อหรือความหมายของแต่ละแอตทริบิวต์ นักเรียนสามารถแปรงข้อมูลได้หลายแบบขึ้นอยู่กับความสนใจว่าต้องการหาคำตอบเกี่ยวกับอะไร ดังต่อไปนี้
1.การลดจำนวนข้อมูล เป็นการเลือกเฉพาะข้อมูลที่สนใจเพื่อจัดเตรียมข้อมูลก่อนการประมวลผล
2.การเพิ่มจำนวนข้อมูล เป็นการจัดระเบียบข้อมูลโดยแยกข้อมูลที่มีอยู่เดิมในคอลัมน์เดียวกัน ออกเป็นสองคอลัมน์ เช่น จังหวัดและภาค แยกเป็นคอลัมน์ของจังหวัด กับคอลัมน์ของภาค ซึ่งสามารถนำไปประมวลผลได้ง่ายขึ้น
3.การรวมข้อมูล เป็นการจัดกลุ่มข้อมูลที่มีค่าสอดคล้องกับเงื่อนไขที่กำหนดในแต่ละ แอตทริบิวต์ที่สนใจ เช่น การตั้งคำถามว่า "จังหวัดใดมีรายได้เฉลี่ยต่อครัวเรือนอยู่ในระดับต่ำ ปานกลาง และสูง" โดยมีเงื่อนไขการแบ่ง ดังนี้
ระดับต่ำ รายได้อยู่ระหว่าง 15,001 - 20,000 บาท
ระดับปานกลาง รายได้อยู่ระหว่าง 20,001 - 25,000 บาท
ระดับสูง รายได้อยู่ระหว่าง 25,001 - 30,000 บาท
2.2.3 การเชื่อมโยงข้อมูล (combining data) คือ การเตรียมข้อมูลที่ได้มาจากการเผยแพร่หลายๆ แหล่ง หรือไฟล์ข้อมูลที่ต่างกัน นำมาเชื่อมโยงเข้าด้วยกันโดยใช้แอตทริบิวต์เดียวกันจากทั้งสองแหล่งเป็นตัวเชื่อม เช่น ข้อมูลรายได้เฉลี่ยต่อเดือนของแต่ละจังหวัด และข้อมูลรายจ่ายของแต่ละจังหวัด นำมาเชื่อมต่อกันให้เป็นไฟล์เดียวโดยใช้แอตทริบิวต์ "จังหวัด" เป็นตัวเชื่อม
2.3 การสำรวจข้อมูล (data exploration)
ขั้นตอนหลักของการสำรวจข้อมูล คือการทดลองวาดแผนภาพหรือกราฟของข้อมูลในรูปแบบต่าง ๆ เพื่อพิจารณาภาพรวมของข้อมูล ระหว่างการสำรวจอาจพบข้อผิดพลาดหรือปัญหาอื่น ๆ ซึ่งทำให้ต้องกลับไปดำเนินการแก้ไขให้ถูกต้อง เช่น พบว่ามีข้อมูลสูญหาย ข้อมูลผิดรูปแบบ ข้อมูลมีค่าผิดปกติ เครื่องมือพื้นฐานในการสำรวจข้อมูล เช่น กราฟเส้น ฮิสโทแกรม แผนภาพกล่องหรือแผนภาพการกระจาย
2.3.1 การสำรวจข้อมูลโดยใช้กราฟเส้น การสำรวจข้อมูลเพื่อแสดงภาพรวมของข้อมูลที่แตกต่างหรือมีแนวโน้มไปในทิศทางเดียวกัน
2.3.2 การสำรวจข้อมูลโดยใช้ฮิสโทแกรม การสำรวจข้อมูลเพื่อแสดงความถี่ของสิ่งที่สนใจ
2.3.3 การสำรวจข้อมูลโดยใช้แผนภาพการกระจาย เพื่อแสดงความสัมพันธ์ระหว่าง 2 แอตทริบิวต์ ว่ามีความสัมพันธ์กันหรือไม่
2.3.4 การสำรวจข้อมูลโดยใช้แผนภาพกล่อง ภายใต้ข้อมูลชุดเดียวอาจประกอบไปด้วยกลุ่มย่อยหลาย ๆ กลุ่ม ซึ่งทำให้สามารถพิจารณาข้อมูลแต่ละกลุ่มแยกกันได้และอาจเห็นลักษณะพิเศษบางอย่าง
2.3.5 การสำรวจข้อมูลด้วยการเขียนโปรแกรม จะต้องนำข้อมูลเข้าสู่โปรแกรมที่ใช้สำหรับการประมวลผล ถ้าข้อมูลมีปริมาณไม่มาก ขั้นตอนการเตรียมข้อมูล สามารถเตรียมไฟล์ในรูปแบบ xls หรือ csv ก่อนเริ่มการนำเข้าข้อมูล จากนั้นจึงเลือกใช้การประมวลผลด้วยโปรแกรมสำเร็จรูป หรือการเขียนโปรแกรม แต่ถ้าข้อมูลมีปริมาณมากเกินกว่าที่โปรแกรมสำเร็จรูปจะสามารถจัดเก็บหรือประมวลผลได้ จำเป็นต้องใช้วิธีการนำเข้าและประมวลผลด้วยโปรแกรมภาษา หรือโปรแกรมสำเร็จรูปเฉพาะสำหรับงานด้านวิทยาการข้อมูล
2.4 ข้อมูลส่วนบุคคล
ข้อมูลส่วนบุคคล หมายถึง ข้อมูลเกี่ยวกับสิ่งเฉพาะตัวของบุคคล เช่น การศึกษา ฐานะการเงิน ประวัติสุขภาพ ประวัติอาชญากรรม ประวัติการทำงานหรือประวัติกิจกรรมต่าง ๆ ที่มีชื่อของบุคคลนั้น หรือมีหมายเลขรหัส หรือสิ่งบอกลักษณะที่ทำให้รู้ตัวบุคคลนั้นได้ เช่น ลายพิมพ์นิ้วมือ ข้อมูลเสียง หรือรูปภาพ ข้อมูลส่วนบุคคลเหล่านี้อาจมีมูลค่าทางธุรกิจ จึงต้องระมัดระวังไม่ให้คนอื่นนำไปใช้ หรือปลอมแปลงตัวตนของเราได้ โดยทั่วไปแล้ว ผู้ให้บริการจะต้องเก็บข้อมูลส่วนบุคคลเป็นความลับ ห้ามบุคคลภายนอกเข้าถึงได้
YouTube การสอน (สสวท.) เพื่อศึกษาเพิ่มเติม
สรุปท้ายบท
การเก็บรวบรวมข้อมูลในบทนี้ กล่าวถึง การเก็บรวบรวมข้อมูลทุติยภูมิที่มีหน่วนงานหรือองค์กรเป็นผู้เผยแพร่แบบสาธารณะ ข้อมูลจะต้องถูกจัดเตรียมโดยต้องมีการทำความสะอาดข้อมูล ตรวจสอบว่าข้อมูลนั้นมีความผิดปกติหรือไม่ แปลงข้อมูลให้เป็นระเบียบ และเชื่อมโยงข้อมูลให้อยู่ในรูปแบบที่นำมาใช้ได้ เมื่อจัดเตรียมข้อมูลพร้อมแล้ว ขั้นตอนต่อไปเป็นการสำรวจข้อมูล เพื่อทำความเข้าใจรูปแบบ ความสัมพันธ์ และผลลัพธ์เบื้องต้นเกี่ยวกับข้อมูล โดยอาจทำข้อมูลให้เป็นภาพ กราฟ หรือแผนภูมิ นอกจากนั้นข้อมูลที่เก็บรวบรวมและนำมาสำรวจเบื้องต้นนั้น ต้องระวังถ้าเป็นข้อมูลส่วนบุคคล หรือข้อมูลความลับที่ไม่สามารถเปิดเผยได้