2.2 การเตรียมข้อมูล (Data preparation)
เมื่อเลือกแหล่งข้อมูลและรวบรวมข้อมูลได้แล้ว ขั้นตอนถัดไปคือการเตรียมข้อมูล เพื่อเตรียมพร้อมสำหรับการประมวลผล ซึ่งข้อมูลที่จะใช้ในการประมวลผลนี้จะต้องมีความถูกต้อง ครบถ้วน สมบูรณ์ และไม่มีข้อมูลที่มีค่าผิดปกติ ดังนั้น ก่อนจะนำข้อมูลไปใช้ จะต้องมีการจัดเตรียมข้อมูล และทำความสะอาดข้อมูล -หนังสือเทคโนโลยี(วิทยาการคำนวณ) ม.5
2.2.1 การทำความสะอาดข้อมูล Data cleansing
คือ กระบวนการตรวจสอบ การแก้ไข หรือการลบ เพื่อให้รายการข้อมูลที่ไม่ถูกต้องออกไปจากชุดข้อมูล ตารางหรือฐานข้อมูล ซึ่งเป็นหลักสำคัญของฐานข้อมูล เพราะหมายถึงความไม่สมบูรณ์ ความไม่ถูกต้อง ความไม่สัมพันธ์กับข้อมูลอื่น ๆ เป็นต้น จึงทำให้ผู้เชี่ยวชาญหลาย ๆ คนมองว่าการล้างข้อมูลเป็นสิ่งสำคัญที่สุดในการจัดการกับคุณภาพของข้อมูล
ทั้งนี้ในการทำความสะอาดข้อมูล เกิดขึ้นเนื่องจาก มีความไม่สอดคล้องของข้อมูล ซึ่งอาจเกิดจากข้อผิดพลาดของการบันทึกข้อมูล การส่งข้อมูล หรือการให้ความหมายของข้อมูลที่จัดเก็บแตกต่างกัน อาทิเช่น พิมพ์ผิด มีการเว้นว่างไม่กรอกข้อมูล กรอกข้อมูลที่ไม่สามารถอ้างอิงในระบบได้ หรือ เป็นตัวเลขที่ไม่มีทางเป็นไปได้ในความเป็นจริง ดังนั้นจึงต้องมีการบูรณาการกับฐานข้อมูลอื่น ๆ ไม่ว่าจะเป็น คลังข้อมูล หรือหลายฐานข้อมูล ซึ่งจะมีโอกาสสูงที่จะเกิด ข้อมูลที่ไม่สะอาด ขึ้นได้
ขั้นตอนเบื้องต้นในการ Clean ข้อมูล 4 ขั้นตอน ได้แก่
1. Parsing คือ การแจกแจงข้อมูล หรือการใช้หัวข้อของชุดข้อมูลวามสำคัญของขั้นตอนนี้ไม่ใช่แค่การใช้ Head ของข้อมูล แต่เป็นการทำความเข้าใจว่าคำจำกัดความของชุดข้อมูลนั้นๆ คืออะไร รวมไปถึงเข้าใจค่า และความหมายของมัน เช่น มีค่าสูงสุด หรือ ต่ำสุดเท่าไหร่ เป็นต้น
2. Correcting คือ การแก้ไขข้อมูลที่ผิดพลาด เช่น ในช่องเพศ มีการใส่ตัวเลข หรือแม้กระทั่งตัวเลขที่ผิดปกติไปเนื่องจากมี 0 เกินมา ก็เป็นได้
3. Standardizing คือ การทำข้อมูลให้เป็นรูปแบบเดียวกัน ตัวอย่างเช่น จังหวัด กรุงเทพฯ ที่มีรูปแบบ กทม. กรุงเทพฯ และ กรุงเทพมหานคร ซึ่งคอมพิวเตอร์ไม่สามารถทราบได้เองว่ามันคือจังหวัดเดียวกัน ส่วนข้อมูลที่เป็นตัวเลขนั้น ในกรณีที่ต้องการแก้ปัญหาเรื่องหน่วย หรือความกว้างของข้อมูลที่ไม่เหมือนกัน
4. Duplicate Elimination คือ การลบชุดข้อความซ้ำซ้อนทิ้ง ซึ่งอาจต้องใช้การเขียน Algorithm เพื่อระบุชุดข้อมูลที่ซ้ำซ้อน
2.2.2 การแปลงข้อมูล (Data transformation)
เป้าหมายของการแปลงข้อมูล คือ การเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมสำหรับการประมวลผล โดยรูปแบบของข้อมูลที่พร้อมประมวลผลในโปรแกรมตารางทำงานนั้น แต่ละแถว(บรรทัด) คือ ข้อมูล 1 รายการ และแต่ละคอลัมน์ (หลัก) คือ คุณลักษณะ หรือแอตทริบิวต์
2.2.3 การเชื่อมโยงข้อมูล (combining data)
กรณีที่ต้องการใช้ข้อมูลของกลุ่มตัวอย่างที่มีการเผยแพร่จากหลายแหล่ง หรือมีหลายไฟล์ข้อมูล ต้องทำการเชื่อมโยงข้อมูลจากหลายแหล่งเข้าด้วยกัน โดยใช้คุณลักษณะหรือแอตทริบิวต์ ที่มีอยู่รวมกันของหลายแหล่งข้อมูล เป็นตัวเชื่อมโยง
เว็บไซต์สำหรับนักเรียน