2.3 การสำรวจข้อมูล (data exploration)
กระบวนการการสำรวจข้อมูล มีขั้นตอนหลักๆ คือ การทดลองวาดแผนภาพ หรือกราฟของข้อมูลในรูปแบบต่างๆ เพื่อพิจารณาภาพรวมของข้อมูล ระหว่างการสำรวจอาจจะพบข้อผิดพลาดหรือปัญหาอื่นๆ จากการตั้งคำถาม หรือการรวบรวมข้อมูล ซึ่งทำให้ต้องต้องกลับไปดำเนินการแก้ไขให้ถูกต้อง เช่น พบว่าข้อมูลสูญหาย ข้อมูลผิดรูปแบบ ข้อมูลมีค่าผิดปกติ
เครื่องมือพื้นฐานในการสำรวจข้อมูล เช่น กราฟเส้น ฮิสโทแกรม แผนภาพกล่อง หรือแผนภาพกระจาย และ การสำรวจข้อมูลด้วยการเขียนโปรแกรม - หนังสือเทคโนโลยี(วิทยาการคำนวณ) ม.5
กราฟเส้น (line chart) — แสดงแนวโน้มของข้อมูล
มักใช้ในการนำเสนอข้อมูลที่ต้องการให้เห็นแนวโน้มของการเปลี่ยนแปลงที่เกิดขึ้นในช่วงเวลาหนึ่งๆ มากกว่าจะแสดงเพียงจำนวนตัวเลขที่แท้จริงเท่านั้น เช่น แนวโน้มยอดขายหรืออัตราผลกำไรในแต่ละเดือน ไตรมาส หรือ ปี
ฮิสโทแกรม (histogram) — แสดงความถี่ของสิ่งที่สนใจ
ใช้แผนภูมิฮิสโตแกรมเมื่อคุณต้องการแสดงการกระจายของชุดข้อมูลในที่เก็บข้อมูลหรือช่วงต่างๆ ความสูงของแต่ละแท่งจะแสดงแทนจำนวนค่าในแต่ละช่วง ตัวอย่างเช่น แสดงระยะเวลาที่ศูนย์บริการของคุณพักสายลูกค้า
แผนภูมิแท่งเทียนหรือแผนภาพกล่อง (box plot) — แสดงข้อมูลของคุณลักษณะพิเศษแยกกลุ่มกัน
ใช้แผนภูมิแท่งเทียนเพื่อแสดงค่าต่ำ ค่าสูง ค่าเปิด และค่าปิดของหลักทรัพย์ในช่วงระยะเวลาหนึ่งๆ เช่น รับข้อมูลความผันผวนของราคาหุ้นในแต่ละวัน ยังสามารถใช้แผนภูมิแท่งเทียนเพื่อติดตามข้อมูลทางวิทยาศาสตร์ เช่น ปริมาณน้ำฝนหรืออุณหภูมิได้อีกด้วย
แผนภาพการกระจาย (scatter plot) — แสดงความสัมพันธ์ระหว่าง 2 คุณลักษณะที่สนใจ
แผนภูมิกระจายจะแสดงพิกัดตัวเลขตามแกนแนวนอน (X) และแกนแนวตั้ง (Y) ใช้แผนภูมิกระจายเมื่อต้องการดูว่าตัวแปรหนึ่งได้รับผลกระทบจากตัวแปรอื่นมากเท่าใด ตัวอย่างเช่น แสดงข้อมูลเงินเดือนของพนักงานและจำนวนปีที่ทำงาน