การเก็บรวบรวมข้อมูล (Data Collection)
ในปัจจุบัน แหล่งข้อมูลทุติยภูมิมีการเผยแพร่บนอินเทอร์เน็ตและอยู่ในหลายรูปแบบ (format) ในการนำไปใช้งานอาจมีวิธีจัดการข้อมูลที่แตกต่างกัน ขึ้นกับรูปแบบที่เผยแพร่ดังนี้
ไฟล์ — ไฟล์ข้อมูล เช่น ไฟล์ที่ได้จากโปรแกรมตาราทำงาน (นามสกุล .xls, .xlsx, .odp) หรือไฟล์แบบข้อความ (text) (นามสกุล .csv) สามารถดาวน์โหลดไปใช้งานได้โดยไม่ต้องอาศัยขั้นต้อนซับซ้อนในการแปลงข้อมูล ส่วนไฟล์นามสกุล .pdf สามารถดาวน์โหลดได้แต่มีกระบวนการซับซ้อนในการแปลงข้อมูลให้อยู่ในรูปแบบที่นำไปใช้คำนวณ นอกจากนี้ ยังมีข้อมูลที่อยู่ในรูปแบบที่ต้องเขียนคำสั่งในการนำข้อมูลเหล่านั้นมาใช้งาน เช่น ข้อมูลจาก Facebook, X(Twitter) ต้องเขียนคำสั่งผ่านวิธีการเชื่อมต่อเฉพาะ (API: Application Programming Interface)
รายงานหรือตารางบนเว็บไซต์ — เป็นข้อมูลที่ผ่านการสรุปมาแล้ว ไม่มีข้อมูลดิบประกอบ ทำให้ยากในการนำข้อมูลไปวิเคราะห์ในประเด็นอื่น เช่น ข้อมูลสรุปจำนวนผู้ติดเชื้อและเสียชีวิตในช่วงการแพร่ระบาดของโรคโควิด-19 ซึ่งไม่มีรายละเอียดของแต่ละบุคคล แต่ละภูมิภาค ทำให้ไม่สามารถวิเคราะห์ถึงช่วงอายุ หรือภูมิภาคของผู้ติดเชื้อหรือเสียชีวิต
วิธีการรวบรวมข้อมูล
การสัมภาษณ์ (interview) — สัมภาษณ์โดยตรงหรือผ่านการสื่อสารอื่น เช่น โทรศัพท์ สื่อสังคมออนไลน์ ต้องใช้คำถามที่ชัดเจน ตรงประเด็น เป็นลักษณะคำถามปลายเปิด นิยมใช้รวบรวมข้อมูลเชิงคุณภาพ เช่น ความเห็นของนักเรียนต่อระเบียบปฏิบัติในห้องเรียน ความรู้สึกของผู้บริโภคเกี่ยวกับผลิตภัณฑ์ใหม่
การสำรวจ (survey) — ใช้แบบสำรวจที่มีการกำหนดคำถาม เพื่อค้นหาข้อมูล หรือความเห็นที่ต้องการ เช่น ความพึงพอใจของการบริหารงานของสภานักเรียน แหล่งท่องเที่ยวที่นักท่องเที่ยวสนใจ
การสังเกต (observe) — รวบรวมข้อมูลจากเหตุการณ์ สถานการณ์ หรือพฤติกรรมที่เปลี่ยนแปลงไป เช่น สังเกตพฤติกรรมของนักเรียนระหว่างรับประทานอาหาร พฤติกรรมการทิ้งขยะของคนในองค์กร
การทดลอง (experiment) — รวบรวมข้อมูลจากการทดลองหรือทดสอบที่มีการควบคุมปัจจัยบางประการ เช่น การบันทึกผลการเจริญเติบโตของถั่วงอกเมื่อมีแสงแดดและไม่มีแสงแดด
การทบทวนเอกสาร (document/literature review) — เป็นการรวบรวมข้อมูลจากเอกสาร รายงาน บทความ หรือแบบฟอร์มการรวมรวบข้อมูล เช่น แบบบันทึกการเข้าเรียนของนักเรียน รายงานประจำปี รายงานการประชุม จดหมายข่าว แบบฟอร์มลงเวลาปฏิบัติงาน
การสำมะโน (census) — รวบรวมข้อมูลด้วยการสำรวจจากประชากรเกี่ยวกับเรื่องที่กำหนด เช่น สำนักงานสถิติแห่งชาติมีการสำมะโนประชากรและเคหะเป็นประจำทุกๆ 10 ปี
แหล่งข้อมูลทุติยภูมิ
data.go.th เป็นแหล่งข้อมูลทุติยภูมิสถิติจากศูนย์กลางข้อมูลภาครัฐ เพื่อประโยชน์ต่อสาธารณชนและหน่วยงานทั้งภาครัฐและเอกชน สามารถค้นหาและเข้าถึงข้อมูลที่มีคุณภาพของภาครัฐได้โดยสะดวก ซึ่งมีให้ดาวน์โหลดไฟล์ในรูปแบบ .xls และรูปแบบ .csv นอกจากนี้ยังสามารถดาวน์โหลดไฟล์คำอธิบายข้อมูล (metadata) ได้
ตัวอย่างข้อมูลรายได้เฉลี่ยต่อเดือนต่อครัวเรือน จาก www.data.go.th นี้ จำแนกตามภาค และจังหวัด ซึ่งข้อมูลดังกล่าว มีคุณลักษณะหรือแอตทริบิวต์ (attribute) ได้แก่ รายได้เฉลี่ยต่อเดือนต่อครัวเรือน ซึ่งได้ทำการเก็บรวบรวมเป็นรายปี ตั้งแต่ปี พ.ศ.2541 ถึง พ.ศ.2558 (18 ปี) สามารถนำมาประมวลผลเพื่อแบ่งกลุ่มจังหวัดที่มีรายได้เฉลี่ยมาก ปานกลาง หรือน้อย เพื่ออธิบายภาพรวมรายได้เฉลี่ยประชากรของประเทศ ทำให้สามารถวางนโยบายที่เหมาะสมในการบริหารงาน หรือพัฒนาจังหวัดต่างๆ
แหล่งข้อมูลทุติยภูมิที่เผยแพร่ของประเทศไทย
สำนักงานสถิติแห่งชาติ — ข้อมูลสถิติประชากร แรงงาน การศึกษา ศาสนา ศิลปวัฒนธรรม สุขภาพ
สำนักงานพัฒนารัฐบาลดิจิทัล (องค์การมหาชน) — ข้อมูลที่รวบรวมจากแหล่งต่างๆ จัดเป็นหมวดหมู่
สำนักงานคณะกรรมการพัฒนาการเศรษฐกิจและสังคมแห่งชาติ — ข้อมูลด้านเศรษฐกิจและสังคม ทรัพยากรธรรมชาติและสิ่งแวดล้อม
แหล่งข้อมูลทุตยภูมิที่เผยแพร่ของต่างประเทศ
Kaggle
Data World
UCI Machine Learning Repository
Google Dataset Search
ความเหมาะสมของแหล่งข้อมูล
การเลือกใช้แหล่งช้อมูลที่มีการบิดเบือน ขาดความน่าเชื่อถือ อาจทำให้ข้อสรุปที่ได้เกิดความผิดพลาดหรือชี้นำไปในทางที่ผิด นอกจากนี้อาจเกิดอันตรายและสร้างความเสียหาย ดังนั้นก่อนเลือกใช้แหล่งข้อมูล ควรพิจารณาความเหมาะสมของแหล่งข้อมูลตามมุมมอง ดังนี้
จุดมุ่งหมายของแหล่งข้อมูล (purpose) — ข้อมูลถูกพัฒนาขึ้นเพื่อเป้าหมายใด
ความทันสมัยของข้อมูล (currency) — ข้อมูลเผยแพร่เมื่อใด
ความสอดคล้องกับการใช้งาน (relevance) — ข้อมูลเกี่ยวข้องกับปัญหาที่ต้องการหรือไม่
ความน่าเชื่อถือของแหล่งข้อมูล (authority) — แหล่งข้อมูลหรือผู้เผยแพร่น่าเชื่อถือหรือไม่
ความถูกต้องแม่นยำ (accuracy) — ข้อมูลมีการยืนยันความถูกต้อง มีการถูกอ้างอิงถึงหรือไม่