ในยุคของข้อมูลและสารสนเทศ มีปริมาณข้อมูลเพิ่มมากขึ้นทุกวัน จากผู้ใช้ที่มีอยู่ทั่วโลกจำนวนมาก ทำให้ข้อมูลกลายเป็นสิ่งที่มีมูลค่ามหาศาล มีการใช้ศาสตร์ที่เรียกว่าวิทยาการข้อมูล (data science) ซึ่งมีความสำคัญและช่วยให้ผู้ใช้เข้าใจความหมายของข้อมูล และในขณะเดียวกันผู้ใช้จะได้รับความรู้จากข้อมูลที่ผ่านกระบวนการวิทยาการข้อมูลด้วย
1.1 ยุคของข้อมูลและสารสนเทศ (Information Age)
ในยุคของข้อมูลสารสนเทศ ข้อมูลสิ่งที่มีความสำคัญอย่างยิ่ง ถูกนำมาใช้ประโยชน์ด้านต่าง ๆ เช่น ด้านเศรษฐกิจ การศึกษา สาธารณสุข สิ่งแวดล้อม การเกษตร และการคมนาคม การจัดเก็บข้อมูลในรูปแบบเดิมทำให้การนำข้อมูลมาใช้ไม่สะดวก ไม่ทันกาล สูญหายง่าย
การจัดเก็บข้อมูลในรูปแบบดิจิทัล (digitization) และการพัฒนาการของการสื่อสารบนอินเทอร์เน็ต ช่วยแก้ปัญหาเหล่านี้ ทำให้ผู้ใช้สามารถเข้าถึงข้อมูลและสารสนเทศได้ทุกที่ทุกเวลา
แผนที่กระดาษในรูปแบบเดิม ไม่สามารถแสดงข้อมูลการจราจรที่เป็นปัจจุบัน และไม่สามารถวางแผนการเดินทางได้ แต่ระบบแผนที่นำทาง (Global Positioning System: GPS) นอกจากแสดงสถานที่ต่าง ๆ แล้ว ยังมีข้อมูลสภาพการจราจร ระยะเวลาเดินทาง ซึ่งมีความแม่นยำ ช่วยประหยัดเวลาและค่าใช้จ่าย
ในปัจจุบัน เราไม่เป็นเพียงผู้ใช้ประโยชน์จากข้อมูลดิจิทัลเท่านั้น แต่ยังเป็นหนึ่งในผู้ร่วมสร้างข้อมูลดิจิทัลด้วยเช่นกัน การอัพโหลดรูปภาพส่วนตัว การโพสต์ข้อความในสื่อสังคมออนไลน์ การส่งต่อข้อความ เป็นต้น ข้อมูลดิจิทัลเหล่านี้ผู้ใช้คนอื่นสามารถนำไปใช้ประโยชน์ต่อได้ จัดได้ว่าข้อมูลเหล่านี้เป็นสินทรัพย์ (Asset) ที่มีความสำคัญ แต่หากข้อมูลที่มีอยู่ไม่ได้ถูกนำมาประมวลผล ก็จะไม่เกิดคุณค่าใด ๆ ดังคำกว่าที่ว่า “ข้อมูลนั้นมีค่าดั่งน้ำมันดิบ”
บริษัทต่าง ๆ นำข้อมูลดิจิทัลมาใช้ประโยชน์ทำให้เกิดมูลค่ามหาศาล เช่น บริษัทให้บริการจองโรงแรมที่พัก แท็กซี่ ขายสินค้าออนไลน์ และบริการสื่อสังคม (social media)
เฟซบุ๊ก (Facebook) เป็นบริษัทให้บริการสื่อสังคม มีผู้ใช้หลายล้านคนทั่วโลกโดยไม่คิดค่าใช้จ่าย แต่สามารถสร้างรายได้จากการขายโฆษณาที่ตรงกับกลุ่มเป้าหมาย (user-targeted advertisements) ของบริษัทสินค้าและบริการ เฟซบุ๊ก รวบรวมข้อมูลผู้ใช้ เช่น เพศ อายุ ที่อยู่ อาชีพ รวมถึงพฤติกรรมการใช้งานที่ผู้ใช้ ผ่านการกดไลค์ (like) กดแชร์ (share) ภาพ วิดีโอ
เฟซบุ๊ก นำข้อมูลเหล่านี้มาประมวลผลเป็นสารสนเทศที่บอกคุณลักษณะของผู้ใช้ และใช้สารสนเทศนี้ในการนำเสนอหรือโฆษณาสินค้าหรือบริการ โดยบริษัทเจ้าของสินค้าหรือบริการ จะจ่ายค่าโฆษณาให้กับเฟซบุ๊ก เช่น บริษัทธุรกิจรถยนต์ ธนาคาร อาหาร-เครื่องดื่ม โทรศัพท์มือถือ ร้านค้า เกมออนไลน์
การนำข้อมูลดิจิทัลที่มีอยู่มหาศาลมาใช้ประโยชน์ในด้านต่าง ๆ ความรู้ทางด้านวิทยาการข้อมูลจึงมีบทบาทสำคัญ และอาชีพนักวิทยาศาสตร์ข้อมูลจึงมีบทบาทสำคัญ เป็นอาชีพที่น่าสนใจ และได้รับความนิยมเป็นอย่างมากในยุคของข้อมูลและสารสนเทศนี้
1.2 วิทยาการข้อมูล (Data Science)
วิทยาการข้อมูล เป็นศาสตร์ที่เกี่ยวข้องกับกระบวนการ วิธีการ หรือเทคนิค ในการนำข้อมูลจำนวนมหาศาลมาประมวลผล เพื่อให้ได้องค์ความรู้ เข้าใจปรากฏการณ์ใช้ตีความ ทำนายพยากรณ์ ค้นหารูปแบบ แนวโน้มจากข้อมูล และสามารถนำมาวิเคราะห์ต่อยอด เพื่อแนะนำทางเลือกที่เหมาะสมไปใช้ในการตัดสินใจเพื่อประโยชน์สูงสุด
1.3 กระบวนการวิทยาการข้อมูล (Data Science Process)
การใช้ข้อมูลมาช่วยเพิ่มมูลค่าให้ผลิตภัณฑ์หรือบริการนั้น นอกจากความเข้าใจเกี่ยวกับผลิตภัณฑ์หรือบริการแล้ว ยังต้องอาศัยกิจกรรมต่าง ๆ ที่เกี่ยวข้อบกับการจัดหาและประมวลผลข้อมูลอีกด้วย
กระบวนการของวิทยาการข้อมูลประกอบไปด้วย
1. การตั้งคำถาม (ask an interesting question) ตั้งคำถามที่ตนเองสนใจ
2. การเก็บรวบรวมข้อมูล (get the data) คำนึงถึงว่าเก็บข้อมูลเรื่องอะไร จากที่ไหน จำนวนเท่าใด ความน่าเชื่อถือของแหล่งข้อมูล ตรวจสอบความถูกต้องข้อมูล กำจัดข้อมูลที่ผิดหรือไม่สมบูรณ์ เพื่อให้ได้ข้อมูลนำเข้าที่ดี ทำให้ได้ผลลัพธ์ที่ดีตามไปด้วย
3. การสำรวจข้อมูล (explore the data) ทำความเข้าใจรูปแบบและค่าของข้อมูล การทำข้อมูลเป็นภาพหรือแผนภูมิ เพื่อให้มองเห็นความหมายของข้อมูลที่ซ่อนเร้นอยู่
4. การวิเคราะห์ข้อมูล (analyze the data) อธิบายความหมาย ความสัมพันธ์ของข้อมูล ทำนายเหตุการณ์ในอนาคต
4. การสื่อสารและทำผลลัพธ์เป็นภาพ (communicate and visualize the results) สื่อสารผลลัพธ์ของข้อมูล โดยการถ่ายทอดเป็นเรื่องราวหรือภาพ
1.4 การคิดเชิงออกแบบ (Design Thinking) สำหรับวิทยาการข้อมูล
การนำข้อมูลผลลัพธ์จากกระบวนการของวิทยาการข้อมูลมาใช้สำหรับสื่อสาร แม้ทำให้เข้าใจปัญหาหรือสถานการณ์มากยิ่งขึ้น แต่ถ้าไม่เข้าใจถึงความต้องการที่แท้จริงของผู้ใช้ จะทำให้ผลลัพธ์ดังกล่าว ไม่เกิดประโยชน์ต่อผู้ใช้อย่างแท้จริง
เพื่อให้ผลลัพธ์ที่ตรงกับความต้องการของผู้ใช้อย่างแท้จริง ระหว่างทำกระบวนการวิทยาการข้อมูล ต้องอาศัยหลักการพื้นฐานของแนวคิดเชิงออกแบบ
หลักการพื้นฐานของแนวคิดเชิงออกแบบ ประกอบด้วย
1. การมองในมุมมองของผู้ใช้ (เอาใจเขามาใส่ใจเรา สร้างความเข้าใจต่อผู้ใช้อย่างลึกซึ้ง)
2. การลองผิดลองถูกและเรียนรู้ผ่านการทดลองกับกลุ่มผู้ใช้จริง (นำสิ่งที่คาดการณ์ไปทดสอบกับผู้ใช้จริง โดยอาจสร้างแบบจำลองตัวอย่าง ไปใช้สำหรับพูดคุย สื่อสารกับผู้ใช้ เพื่อให้เห็นภาพได้ชัดเจนยิ่งขึ้น)
3. การทำซ้ำและปรับปรุง (การออกแบบที่ดีมักผ่านกระบวนการปรับปรุงและแก้ไขโดยอาศัยข้อคิดเห็นจากผู้ใช้ ซึ่งในบางครั้งก็เป็นสิ่งนักออกแบบคาดไม่ถึงมาก่อน)
วิศวกรออกแบบเครื่อง MRI มองเห็นปัญหาเวลาที่เด็กต้องเข้ารับการสแกนโดยเครื่อง MRI เพราะเด็กเกิดความหวาดกลัว ร้องไห้ ทำให้ก่อนการสแกน MRI ต้องวางยาสลบเพื่อให้เด็ก ๆ อยู่ในสภาวะที่พร้อมสำหรับการเข้าสแกน MRI วิศวกรออกแบบจึงนำประเด็นความกลัวของเด็ก ๆ ต่อเครื่อง MRI มาใช้ในการออกแบบสร้างเครื่อง MRI สำหรับเด็กโดยเฉพาะ ซึ่งจำลองสภาพให้คล้ายกับเครื่องเล่นผจญภัยในสวนสนุก เมื่อนำไปใช้งานจริง เด็ก ๆ ไม่เกิดความหวาดกลัว เข้าสแกน MRI โดยไม่ต้องวางยาสลบ รู้สึกสนุกและตื่นเต้น ระหว่างการเข้าสแกน MRI
การเก็บรวบรวมข้อมูลและสำรวจข้อมูล
ข้อมูลเป็นสิ่งที่มีมูลค่ามหาศาลในปัจจุบัน จึงมีการนำข้อมูลมาวิเคราะห์หรือประมวลผลให้เกิดประโยชน์กับบุคคลหรือองค์กร กระบวนการในการเก็บรวบรวมข้อมูล นับว่าเป็นสิ่งสำคัญ ดังประโยคที่ว่า garbage in garbage out สำหรับขั้นตอนของการเก็บรวบรวมข้อมูลที่จะกล่าวถึงนั้น เป็นการเก็บรวบรวมข้อมูลทุติยภูมิ โดยต้องกำหนดเป้าหมายให้ชัดเจนว่า จะนำข้อมูลที่รวบรวมได้ไปใช้ในเรื่องใด และจะวิเคราะห์อย่างไร เพื่อให้ได้ผลลัพธ์ตามที่ต้องการ โดยเป้าหมายนั้นสามารถบอกได้ว่าข้อมูลที่ต้องการ รวบรวมได้จากที่ใด และวิธีการใด
ข้อมูลแบ่งตามลักษณะของการได้มา ดังนี้
ข้อมูลปฐมภูมิ (primary data) – ข้อมูลที่ได้จากแหล่งกำเนิดข้อมูลหรือจุดเริ่มต้นของข้อมูล เช่น ข้อมูลจากการทดลอง โดยข้อมูลปฐมภูมิเป็นข้อมูลที่เกิดขึ้นจากการกระทำ หรือการจดบันทึกของผู้มีส่วนร่วมในเรื่องราวหรือเหตุการณ์เหล่านั้น
ข้อมูลทุติยภูมิ (secondary data) – ข้อมูลที่ได้มาจากการอ้างอิงถึงข้อมูลปฐมภูมิ หรือนำข้อมูลปฐมภูมิมาวิเคราะห์ ประมวลผล ซึ่งอาจอยู่ในรูปสถิติ บทวิจารณ์ บทความ เอกสารต่าง ๆ
การนำข้อมูลทุติยภูมิที่มีการจัดเก็บรวบรวมไว้แล้วใช้งาน อาจมีค่าใช้จ่ายและใช้เวลาน้อยกว่าการใช้ข้อมูลปฐมภูมิ อย่างไรก็ตาม ข้อมูลทุติยภูมิที่มีการอ้างอิงหรือส่งต่อกันมาเป็นทอดๆ อาจมีความจริงบางส่วนถูกบิดเบือนไปทั้งโดยเจตนา หรือไม่เจตนา ดังนั้น ในการอ้างอิงข้อมูลทุติยภูมิ ต้องตรวจสอบความถูกต้องและแหล่งที่มาอย่างละเอียดถี่ถ้วน เพื่อให้เกิดความเชื่อมั่นในการนำข้อมูลไปใช้ เพื่อให้เกิดประโยชน์อย่างแท้จริง
วิธีการรวบรวมข้อมูล
การสัมภาษณ์ (interview) – สัมภาษณ์โดยตรงหรือผ่านการสื่อสารอื่น เช่น โทรศัพท์ สื่อสังคมออนไลน์ ต้องใช้คำถามที่ชัดเจน ตรงประเด็น เป็นลักษณะคำถามปลายเปิด นิยมใช้รวบรวมข้อมูลเชิงคุณภาพ เช่น ความเห็นของนักเรียนต่อระเบียบปฏิบัติในห้องเรียน ความรู้สึกของผู้บริโภคเกี่ยวกับผลิตภัณฑ์ใหม่
การสำรวจ (survey) – ใช้แบบสำรวจที่มีการกำหนดคำถาม เพื่อค้นหาข้อมูล หรือความเห็นที่ต้องการ เช่น ความพึงพอใจของการบริหารงานของสภานักเรียน แหล่งท่องเที่ยวที่นักท่องเที่ยวสนใจ
การสังเกต (observe) – รวบรวมข้อมูลจากเหตุการณ์ สถานการณ์ หรือพฤติกรรมที่เปลี่ยนแปลงไป เช่น สังเกตพฤติกรรมของนักเรียนระหว่างรับประทานอาหาร พฤติกรรมการทิ้งขยะของคนในองค์กร
การทดลอง (experiment) – รวบรวมข้อมูลจากการทดลองหรือทดสอบที่มีการควบคุมปัจจัยบางประการ เช่น การบันทึกผลการเจริญเติบโตของถั่วงอกเมื่อมีแสงแดดและไม่มีแสงแดด
การทบทวนเอกสาร (document/literature review) – เป็นการรวบรวมข้อมูลจากเอกสาร รายงาน บทความ หรือแบบฟอร์มการรวมรวบข้อมูล เช่น แบบบันทึกการเข้าเรียนของนักเรียน รายงานประจำปี รายงานการประชุม จดหมายข่าว แบบฟอร์มลงเวลาปฏิบัติงาน
การสำมะโน (census) – รวบรวมข้อมูลด้วยการสำรวจจากประชากรเกี่ยวกับเรื่องที่กำหนด เช่น สำนักงานสถิติแห่งชาติมีการสำมะโนประชากรและเคหะเป็นประจำทุก ๆ 10 ปี
2.1 การเก็บรวบรวมข้อมูล (Data Collection)
ในปัจจุบัน แหล่งข้อมูลทุติยภูมิมีการเผยแพร่บนอินเทอร์เน็ตและอยู่ในหลายรูปแบบ (format) ในการนำไปใช้งานอาจมีวิธีจัดการข้อมูลที่แตกต่างกัน ขึ้นกับรูปแบบที่เผยแพร่ดังนี้
ไฟล์ – ไฟล์ข้อมูล เช่น ไฟล์ที่ได้จากโปรแกรมตาราทำงาน (นามสกุล .xls, .xlsx, .odp) หรือไฟล์แบบข้อความ (text) (นามสกุล .csv) สามารถดาวน์โหลดไปใช้งานได้โดยไม่ต้องอาศัยขั้นต้อนซับซ้อนในการแปลงข้อมูล ส่วนไฟล์นามสกุล .pdf สามารถดาวน์โหลดได้แต่มีกระบวนการซับซ้อนในการแปลงข้อมูลให้อยู่ในรูปแบบที่นำไปใช้คำนวณ นอกจากนี้ ยังมีข้อมูลที่อยู่ในรูปแบบที่ต้องเขียนคำสั่งในการนำข้อมูลเหล่านั้นมาใช้งาน เช่น ข้อมูลจาก Facebook, Twitter ต้องเขียนคำสั่งผ่านวิธีการเชื่อมต่อเฉพาะ (API: Application Programming Interface)
รายงานหรือตารางบนเว็บไซต์ – เป็นข้อมูลที่ผ่านการสรุปมาแล้ว ไม่มีข้อมูลดิบประกอบ ทำให้ยากในการนำข้อมูลไปวิเคราะห์ในประเด็นอื่น เช่น ข้อมูลสรุปจำนวนผู้ติดเชื้อและเสียชีวิตในช่วงการแพร่ระบาดของโรคโควิด-19 ซึ่งไม่มีรายละเอียดของแต่ละบุคคล แต่ละภูมิภาค ทำให้ไม่สามารถวิเคราะห์ถึงช่วงอายุ หรือภูมิภาคของผู้ติดเชื้อหรือเสียชีวิต
2.1.1 แหล่งข้อมูลทุติยภูมิ
เว็บไซต์ data.go.th เป็นแหล่งข้อมูลทุติยภูมิสถิติจากศูนย์กลางข้อมูลภาครัฐ เพื่อประโยชน์ต่อสาธารณชนและหน่วยงานทั้งภาครัฐและเอกชน สามารถค้นหาและเข้าถึงข้อมูลที่มีคุณภาพของภาครัฐได้โดยสะดวก ซึ่งมีให้ดาวน์โหลดไฟล์ในรูปแบบ .xls และรูปแบบ .csv นอกจากนี้ยังสามารถดาวน์โหลดไฟล์คำอธิบายข้อมูล (metadata) ได้
ตัวอย่างข้อมูลรายได้เฉลี่ยต่อเดือนต่อครัวเรือน จาก www.data.go.th นี้ จำแนกตามภาค และจังหวัด ซึ่งข้อมูลดังกล่าว มีคุณลักษณะหรือแอตทริบิวต์ (attribute) ได้แก่ รายได้เฉลี่ยต่อเดือนต่อครัวเรือน ซึ่งได้ทำการเก็บรวบรวมเป็นรายปี ตั้งแต่ปี พ.ศ.2541 ถึง พ.ศ.2558 (18 ปี) สามารถนำมาประมวลผลเพื่อแบ่งกลุ่มจังหวัดที่มีรายได้เฉลี่ยมาก ปานกลาง หรือน้อย เพื่ออธิบายภาพรวมรายได้เฉลี่ยประชากรของประเทศ ทำให้สามารถวางนโยบายที่เหมาะสมในการบริหารงาน หรือพัฒนาจังหวัดต่าง ๆ
2.1.2 ความเหมาะสมของแหล่งข้อมูล
การเลือกใช้แหล่งข้อมูลที่มีการบิดเบือน ขาดความน่าเชื่อถือ อาจทำให้ข้อสรุปที่ได้เกิดความผิดพลาดหรือชี้นำไปในทางที่ผิด นอกจากนี้อาจเกิดอันตรายและสร้างความเสียหาย ดังนั้นก่อนเลือกใช้แหล่งข้อมูล ควรพิจารณาความเหมาะสมของแหล่งข้อมูลตามมุมมองดังนี้
จุดมุ่งหมายของแหล่งข้อมูล (purpose) – ข้อมูลถูกพัฒนาขึ้นเพื่อเป้าหมายใด
ความทันสมัยของข้อมูล (currency) – ข้อมูลเผยแพร่เมื่อใด
ความสอดคล้องกับการใช้งาน (relevance) – ข้อมูลเกี่ยวข้องกับปัญหาที่ต้องการหรือไม่
ความน่าเชื่อถือของแหล่งข้อมูล (authority) – แหล่งข้อมูลหรือผู้เผยแพร่น่าเชื่อถือหรือไม่
ความถูกต้องแม่นยำ (accuracy) – ข้อมูลมีการยืนยันความถูกต้อง มีการถูกอ้างอิงถึงหรือไม่
2.2 การเตรียมข้อมูล (Data Preparation)
หลังจากเลือกแหล่งข้อมูลและรวบรวมข้อมูลเรียบร้อยแล้ว ขั้นตอนต่อไปคือการเตรียมข้อมูล เพื่อทำให้ข้อมูลมีความถูกต้อง ครบถ้วน สมบูรณ์ ไม่มีค่าผิดปกติ เพื่อเตรียมพร้อมสำหรับการประมวลผลข้อมูล
2.2.1 การทำความสะอาดข้อมูล (Data Cleansing) ข้อมูลที่รวบรวมมานั้น อาจมีข้อผิดพลาดซึ่งไม่เหมาะต่อการนำไปประมวลผล ได้แก่ มีค่าว่าง มีค่าที่อยู่นอกขอบเขตจากค่าที่เป็นไปได้ ใช้หน่วยนับผิด เป็นค่าผิดปกติ (outlier) ใช้รูปแบบข้อมูลแตกต่างกัน พิมพ์ผิด ซึ่งสาเหตุเกิดจากผู้ให้ข้อมูลกรอกข้อมูลไม่ครบถ้วน ผู้บันทึกข้อมูลพิมพ์ข้อมูลผิดพลาด หรือการขาดข้อกำหนดในการบันทึกข้อมูล
การแก้ไขข้อมูลเมื่อพบว่ามีข้อผิดพลาด สามารถทำได้โดยการแก้ไขให้ถูกต้อง หรือลบข้อมูลที่ไม่ส่งผลกระทบต่อการประมวลผล หากข้อมูลมีจำนวนไม่มาก สามารถใช้คนดำเนินการตรวจสอบและแก้ไขข้อมูล แต่หากข้อมูลมีจำนวนมาก ต้องอาศัยโปรแกรมคอมพิวเตอร์ในการดำเนินการจัดเตรียมข้อมูลให้สอดคล้องกับเงื่อนไข และรูปแบบข้อมูลที่กำหนดในโปรแกรม
2.2.2 การแปลงข้อมูล (Data Transformation) เป็นการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมสำหรับการประมวลผล โดยรูปแบบของข้อมูลที่พร้อมประมวลผลในโปรแกรมตารางทำงานนั้น แต่ละแถว (บรรทัด) คือข้อมูล 1 รายการ และแต่ละคอลัมน์ (หลัก) คือ คุณลักษณะ หรือแอตทริบิวต์
1) การลดจำนวนข้อมูล เป็นการเลือกข้อมูลที่สนใจ เพื่อจัดเตรียมข้อมูลก่อนการประมวลผล
2) การเพิ่มจำนวนข้อมูล
3) การรวมข้อมูล เป็นการจัดกลุ่มข้อมูลที่มีค่าสอดคล้องกับเงื่อนไขที่กำหนดในแอตทริบิวต์ที่สนใจ
2.2.3 การเชื่อมโยงข้อมูล (Data Combining) กรณีที่ต้องการใช้ข้อมูลของกลุ่มตัวอย่างที่มีการเผยแพร่จากหลายแหล่ง หรือมีหลายไฟล์ข้อมูล ต้องทำการเชื่อมโยงข้อมูลจากหลายแหล่งเข้าด้วยกัน โดยใช้คุณลักษณะหรือแอตทริบิวต์ ที่มีอยู่รวมกันของหลายแหล่งข้อมูล เป็นตัวเชื่อมโยง
2.3 การสำรวจข้อมูล (Data Exploration)
กระบวนการสำรวจข้อมูล มีขั้นตอนหลักๆ คือการทดลองวาดแผนภาพ หรือกราฟของข้อมูลในรูปแบบต่าง ๆ เพื่อพิจารณาภาพรวมของข้อมูล ระหว่างการสำรวจข้อมูลอาจพบข้อผิดพลาดหรือปัญหาอื่นจากการตั้งคำถาม หรือการรวบรวมข้อมูล ซึ่งต้องกลับไปดำเนินการแก้ไขข้อมูลให้ถูกต้อง เช่น พบว่ามีข้อมูลสูญหาย ผิดรูปแบบ มีค่าผิดปกติ
เครื่องมือพื้นฐานในการสำรวจข้อมูล
2.3.1 การสำรวจข้อมูลโดยใช้กราฟเส้น (line chart) – แสดงแนวโน้มของข้อมูล
2.3.5 การสำรวจข้อมูลด้วยการเขียนโปรแกรม
ในกรณีที่ข้อมูลมีปริมาณมากเกินกว่าที่โปรแกรมสำเร็จรูปจะสามารถจัดเก็บหรือประมวลผล ต้องอาศัยวิธีการนำเข้าและประมวลผลข้อมูลผ่านโปรแกรมภาษา หรือโปรแกรมสำเร็จรูปเฉพาะด้านวิทยาการข้อมูล (เช่น ภาษา R, ภาษา Python) โดยมีการนำเข้าไฟล์ข้อมูลประเภท .xls หรือ .csv เพื่อสร้างเป็นโครงสร้างข้อมูลที่มีลักษณะคล้ายตาราง แล้วจึงสามารถประมวลผลข้อมูลเพื่อแสดงผลเป็นภาพ
2.4 ข้อมูลส่วนบุคคล (Personal Information)
ข้อมูลส่วนบุคคล หมายถึง เป็นข้อมูลเกี่ยวกับสิ่งที่เฉพาะตัวของบุคคล เช่น การศึกษา ฐานะการเงิน ประวัติสุขภาพ ประวัติอาชญากรรม ประวัติการทำงาน หรือประวัติกิจกรรมต่าง ๆ ที่มีชื่อของบุคคลนั้นหรือมีหมายเลขรหัส หรือสิ่งที่บอกลักษณะอื่นที่ทำให้รู้ตัวตนบุคคลนั้นได้ เช่น ลายนิ้วมือ ข้อมูลเสียง รูปถ่าย เป็นต้น
ข้อมูลเหล่านี้หากมีผู้อื่นทราบนอกจากเจ้าของข้อมูล อาจทำให้เกิดการปลอมแปลงตัวตน จึงต้องระมัดระวังไม่ให้คนอื่นนำข้อมูลไปใช้ได้ อีกทั้งข้อมูลส่วนบุคคลเหล่านี้ มีประโยชน์และมูลค่าทางธุรกิจ เช่น บริษัทสินเชื่อสามารถใช้ข้อมูลฐานะการเงินเพื่อนำเสนอผลิตภัณฑ์ที่ตรงความต้องการของลูกค้า, บริษัทขายยามีประวัติสุขภาพ สามารถโฆษณายาที่เกี่ยวข้องกับประวัติการเจ็บป่วยของเจ้าของข้อมูล
ข้อมูลส่วนบุคคลหลายคุณลักษณะ อาจบ่งชี้ถึงทัศนคติและความเชื่อ เช่น ข้อมูลการกดชื่นชอบ (like) ต่อเรื่องต่าง ๆ ในระบบเครือข่ายสังคม ชี้ให้เห็นว่าประเด็นสังคมด้านใดที่กำลังอยู่ในความสนใจ หากทีมงานหาเสียงของพรรคการเมืองต่าง ๆ สามารถเข้าถึงข้อมูลเหล่านี้ ก็จะสามารถออกแบบนโยบายของผู้สมัครรับการเลือกตั้งที่เหมาะสมกับความต้องการของสังคม ณ ขณะนั้น ทำให้มีโอกาสที่ผู้สมัครรายนั้นจะได้รับคะแนนการเลือกตั้งที่สูงขึ้น
ปกติแล้วผู้ให้บริการต้องเก็บข้อมูลส่วนตัวของผู้ใช้อย่างเป็นความลับ แต่ในบางกรณีข้อมูลอาจถูกเข้าถึงได้โดยบุคคลภายนอก เนื่องจากความผิดพลาดของการรักษาความปลอดภัย หรือความประมาทเลินเล่อของเจ้าของข้อมูล
การวิเคราะห์ข้อมูล
หลังจากทำการรวบรวมข้อมูลและเตรียมข้อมูลมาแล้ว ขั้นตอนต่อไปคือการวิเคราะห์ข้อมูล ซึ่งจะช่วยให้เกิดความเข้าใจเชิงลึกเกี่ยวกับข้อมูล เช่น ความสัมพันธ์ รูปแบบ และแนวโน้ม ที่สามารถนำไปประกอบการตัดสินใจ ตอบคำถาม หรือตอบสมมติฐานที่ตั้งไว้ จึงกล่าวได้ว่า การวิเคราะห์ข้อมูล เป็นการเปลี่ยนข้อมูลให้มีคุณค่า โดยนำผลลัพธ์ที่ได้จากการวิเคราะห์มาใช้ประโยชน์
ปัจจุบัน มีข้อมูลเกิดขึ้นจำนวนมหาศาล ทั้งจากภายในและภายนอกองค์กร หน่วยงานต่าง ๆ ทั้งกระทรวง กรม มหาวิทยาลัย โรงเรียน โรงพยาบาล ธนาคาร บริษัทประกันภัย และร้านค้า ข้อมูลปริมาณมากเหล่านี้สามารถนำมาวิเคราะห์ให้เกิดประโยชน์สูงสุดได้ ดังนั้น ความรู้ความเข้าใจเกี่ยวกับการวิเคราะห์ข้อมูลจึงนับว่าเป็นสิ่งสำคัญเป็นอย่างมาก เพื่อให้ผลการวิเคราะห์มีความถูกต้อง แม่นยำ
ตัวอย่าง การอาศัยข้อมูลจำนวนประชากรสัตว์ป่าแต่ละประเภทในพื้นที่ป่าแห่งหนึ่ง เพื่อดูความสัมพันธ์ของประชากรสัตว์แต่ละชนิด ว่ามีความเกี่ยวข้องกันในลักษณะใด และมีแนวโน้มการเพิ่ม-ลดของประชากรในแต่ละปีเป็นอย่างไร
สรุปแล้ว การวิเคราะห์ข้อมูล นอกจากจะทำให้เห็นภาพรวมของข้อมูล ยังช่วยให้คาดการณ์ผลในอนาคต และแนะนำทางเลือกที่เหมาะสมที่สุดสำหรับการตัดสินใจของบุคคลหรือองค์กร โดยการวิเคราะห์เชิงพรรณนา (Descriptive Analysis) เป็นการวิเคราะห์ขั้นพื้นฐาน การวิเคราะห์เชิงทำนาย (Predictive Analysis) เป็นการวิเคราะห์เพื่อทำนายสิ่งที่อาจเกิดขึ้นในอนาคต ส่วนการวิเคราะห์เชิงแนะนำ (Prescriptive Analysis) เป็นการวิเคราะห์ที่ต่อยอดมาจากการวิเคราะห์เชิงพรรณนาและเชิงทำนาย โดยใช้ทักษะของการแก้ปัญหาและวางแผน (ในที่นี้ขอกล่าวถึงเฉพาะการวิเคราะห์เชิงพรรณนาและการวิเคราะห์เชิงทำนาย)
3.1 การวิเคราะห์เชิงพรรณนา (Descriptive Analysis)
การวิเคราะห์เชิงพรรณนา เป็นรูปแบบพื้นฐานของการวิเคราะห์ข้อมูล เพื่ออธิบายลักษณะของข้อมูลที่เก็บรวบรวม โดยใช้การคำนวณทางคณิตศาสตร์และสถิติพื้นฐาน เช่น การหาสัดส่วนหรือร้อยละ การวัดค่ากลางของข้อมูล การวัดการกระจายของข้อมูล และการหาความสัมพันธ์ของชุดข้อมูล ซึ่งนำมาใช้งานเพื่อดูภาพรวมของข้อมูลที่สนใจ
3.1.1 การหาสัดส่วนหรือร้อยละ
การหาสัดส่วนหรือร้อยละ เป็นการจัดการข้อมูลที่ซ้ำกันให้เป็นระเบียบและเป็นหมวดหมู่ ทำให้สะดวกในการนำข้อมูลไปใช้และง่ายต่อการสังเกตการเปลี่ยนแปลงต่าง ๆ นำไปแสดงในรูปของเศษส่วน ทศนิยม หรือร้อยละ และนำเสนอข้อมูลในรูปแบบของแผนภูมิหรือแผนภาพ เพื่ออธิบายความหมายของข้อมูลชุดนั้น เช่น จำนวนนักเรียนชาย-หญิง ในห้องเรียน แสดงผลเป็นร้อยละต่อจำนวนนักเรียนทั้งห้อง
3.1.2 การวัดค่ากลางของข้อมูล
การวัดค่ากลางใช้เพื่อหาค่าที่เป็นตัวแทนของข้อมูลทั้งหมด ทำให้สะดวกในการจดจำ หรือสรุปเรื่องราวเกี่ยวกับข้อมูลชุดนั้น ค่ากลางของข้อมูลที่นิยมใช้ได้แก่ ค่าเฉลี่ย (Mean) มัธยฐาน (Median) และฐานนิยม (Mode)
ค่าเฉลี่ยอาจเป็นค่ากลางที่ดี แต่อาจไม่เหมาะสำหรับเป็นค่ากลางของชุดข้อมูลที่มีค่าแตกต่างกันมาก ๆ (มีค่าสูงมาก ๆ หรือต่ำมาก ๆ) ดังนั้นการพิจารณาค่าเฉลี่ยจึงควรพิจารณาการกระจายขอข้อมูลด้วย ซึ่งสามารถดูได้จากค่าส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation)
3.1.3 การหาความสัมพันธ์ของชุดข้อมูล
การวิเคราะห์ความสัมพันธ์เชิงเส้นระหว่างข้อมูล 2 ชุด (pairwise) บ่งบอกถึงทิศทาง (direction) ของความสัมพันธ์ และระดับ (degree) ของความสัมพันธ์
ทิศทางของความสัมพันธ์ มี 2 กรณี
ความสัมพันธ์เชิงบวก – สิ่งที่สนใจทั้งสองสิ่งมีการเพิ่มขึ้นหรือลดลงไปในทิศทางเดียวกัน เช่น ค่าของ X เพิ่มขึ้น ค่าของ Y จะเพิ่มขึ้นด้วย
ความสัมพันธ์เชิงลบ – สิ่งที่สนใจทั้งสองสิ่งมีการเพิ่มขึ้นหรือลดลงไปในทิศทางตรงกันข้าม เช่น ค่าของ X เพิ่มขึ้น แต่ค่าของ Y กลับลดลง
ระดับของความสัมพันธ์ แบ่งเป็นระดับมาก (strong) ปานกลาง (moderate) หรือน้อย (weak)
การวิเคราะห์ความสัมพันธ์เบื้องต้นสามารถทำได้โดยการนำค่าของข้อมูลทั้ง 2 ชุดมาสร้างแผนภาพการกระจาย ทำให้เห็นทิศทางของความสัมพันธ์ได้ชัดเจน และสามารถประมาณระดับของความสัมพันธ์ได้
3.2 การวิเคราะห์เชิงทำนาย (Predictive Analysis)
การวิเคราะห์เชิงทำนาย เป็นการวิเคราะห์ข้อมูลในอดีต เพื่อหารูปแบบความสัมพันธ์ในชุดข้อมูลที่สามารถนำมาเป็นต้นแบบในการทำนาย การคาดการณ์ผล หรือสิ่งที่น่าจะเกิดขึ้นในอนาคต ซึ่งช่วยให้บุคคลหรือองค์กร สามารถตัดสินใจได้อย่างมีประสิทธิภาพ
การคาดการณ์โอกาสที่ฝนจะตก อาศัยประสบการณ์และการสังเกตลักษณะท้องฟ้า ความแรงของลมที่พัด ทำให้ตัดสินใจว่าควรพกร่มหรือชุดกันฝนติดตัวไปด้วยหรือไม่ หากฝนตกแล้วได้พกร่มหรือชุดกันฝนไปด้วย ช่วยทำให้เปียกฝนน้อยลง แสดงว่าการตัดสนใจนั้นมีประสิทธิภาพ
3.2.1 การทำนายเชิงตัวเลข (Numeric Prediction)
เป็นการใช้ข้อมูลในอดีตมาวิเคราะห์หาแนวโน้มเพื่อทำนายอนาคต ซึ่งผลลัพธ์ของการทำนายจะอยู่ในรูปตัวเลข เช่น หากต้องไปต่างประเทศ ควรตรวจสอบอุณหภูมิของประเทศที่จะไปในช่วงเวลานั้น ๆ เพื่อวางแผนการจัดเตรียมเสื้อผ้าได้อย่างถูกต้อง
เกษตรกร ชวนสวน ต้องคาดการณ์ปริมาณน้ำฝนล่วงหน้าจากข้อมูลปริมาณน้ำฝนในอดีต เพื่อนำมาวางแผนการเพาะปลูก
สถาบันการศึกษาต้องคาดการณ์จำนวนนักเรียนที่จะเข้าศึกษาต่อ เพื่อวางแผนการดำเนินงานไปปีการศึกษาถัดไป
การทำนายข้างต้น ทำได้โดยการนำข้อมูลในอดีต (สภาพอากาศ ปริมาณน้ำฝนในพื้นที่ หรือจำนวนนักเรียนที่เข้าศึกษาต่อในปีการศึกษาก่อนหน้า) มาวิเคราะห์หาความสัมพันธ์ระหว่างชุดข้อมูลและสร้างแบบจำลองในการทำนายที่ให้ผลลัพธ์เป็นตัวเลข ซึ่งโดยทั่วไปมีวิธีการทำนาย 2 วิธี คือ การทำนายโดยใช้กราฟ และการทำนายโดยใช้สมการเชิงเส้น
3.2.2 การทำนายเชิงหมวดหมู่ (Classification)
การทำนายเชิงหมวดหมู่ ใช้ข้อมูลที่มีความสัมพันธ์กัน มาทำนายข้อมูลที่ไม่ใช่ข้อมูลตัวเลข เพื่อจำแนกว่าผลลัพธ์จะอยู่ในกลุ่มหรือหมวดหมู่ใด เช่น การทำนายว่าฝนจะตกหรือไม่ (ตก, ไม่ตก) อาหารจานโปรด (ต้มยำกุ้ง, ผัดไทย, กะเพราหมู) แนวเพลงที่ชอบ (แจ๊ส, ป๊อป, ร็อก, ลูกทุ่ง) ประเภทเครื่องดื่ม (น้ำอัดลม, น้ำผลไม้, เครื่องดื่มเกลือแร่) เป็นต้น
แนวคิดหลักในการทำนาย คือ ใช้ข้อมูลในอดีตที่มีการระบุหมวดหมู่มาแล้ว มาทำนายข้อมูลชุดใหม่ที่ยังไม่ทราบหมวดหมู่ โดยจะขอกล่าวถึงการจัดหมวดหมู่ด้วยวิธีการค้นหาเพื่อนบ้านใกล้เคียงที่สุด K ตัว (K-Nearest Neighbors: K-NN)
การทำข้อมูลให้เป็นภาพและการสื่อสารด้วยข้อมูล
ข้อมูลที่จะนำไปประชาสัมพันธ์หรือเผยแพร่ เพื่อการรับรู้ถึงสิ่งที่ผู้สร้างข้อมูลต้องการสื่อสารให้ผู้รับสารเข้าใจตรงกันนั้นเป็นเรื่องที่ทำได้ยาก เพราะผู้สร้างต้องพยายามศึกษาว่าข้อมูลส่วนไหนสำคัญ ข้อมูลส่วนไหนมีรูปแบบที่น่าสนใจ ยิ่งเป็นข้อมูลตัวเลขปริมาณมาก ๆ ทำให้ต้องอาศัยเวลานานในการทำความเข้าใจ ซึ่งอาจทำให้ไม่สามารถมองเห็นถึงความรู้หรือประเด็นสำคัญที่อยู่ในข้อมูลนั้น ๆ ได้
วิธีการหนึ่งที่ทำให้ผู้รับสารรับรู้ถึงสิ่งที่ผู้สร้างต้องการสื่อสารได้อย่างมีประสิทธิภาพ คือ การใช้ภาพมาประกอบการแสดงข้อมูล ดังคำกล่าวที่ว่า ภาพหนึ่งภาพแทนคำพูดพันคำ (A picture is worth a thousand words)
4.1 การสื่อสารด้วยข้อมูล
การถ่ายทอดข้อมูลหรือการสื่อสารจากแหล่งข้อมูลไปยังผู้รับสาร บางครั้งเป็นเรื่องที่ทำได้ยาก เนื่องจากข้อมูลมีปริมาณมากหรืออยู่ในรูปแบบที่ไม่สามารถทำความเข้าใจได้ง่าย ด้วยเหตุนี้การสื่อสารระหว่างบุคคล จำเป็นต้องจัดรูปแบบข้อมูลและนำข้อมูลไปแสดงในบริบทที่เหมาะสม เพื่อให้ผู้รับสารเข้าใจ หรือมองเห็นประเด็นสำคัญที่ต้องการสื่อสารภายใต้ข้อมูลนั้น
ดังนั้น การทำข้อมูลให้เป็นภาพจึงมีความจำเป็น เพื่อช่วยตอบคำถาม ช่วยในการตัดสินใจ ช่วยให้มองเห็นข้อมูลในบริบทที่เหมาะสม ช่วยค้นหารูปแบบ รวมทั้งช่วยสนับสนุนคำพูดหรือการเล่าเรื่องราวที่มีอยู่ในข้อมูลชุดนั้น ๆ
4.2 การทำข้อมูลให้เป็นภาพ (Data Visualization)
ข้อมูลที่รวบรวมได้นั้น ส่วนใหญ่อยู่ในรูปแบบของตารางที่ประกอบด้วยตัวอักษร ตัวเลข เป็นปริมาณมาก แม้ว่าข้อมูลนั้นสามารถตอบข้อสงสัย หรือนำเสนอสิ่งที่สนใจได้ แต่ยังยากต่อการทำความเข้าใจ หรือเป็นอุปสรรคในการสื่อสารให้เข้าใจตรงกัน
ดังนั้น การนำเสนอข้อมูลด้วยภาพ (data visualization) สามารถช่วยตอบคำถาม หรือนำเสนอประเด็กต่าง ๆ ได้รวดเร็ว และชัดเจนมากขึ้น
4.2.1 แผนภูมิรูปวงกลม (Pie Chart) – สร้างโดยการเขียนรูปวงกลมและแบ่งวงกลมออกเป็นสัดส่วนตามจำนวนข้อมูล ซึ่งควรเป็นจำนวนข้อมูลที่มีจำนวนกลุ่มไม่มากนัก นอกจากนี้ยังมีแผนภูมิโดนัท (Doughnut Chart) ที่เกิดจากการนำแผนภูมิวงกลมมาวางซ้อนกัน
4.2.2 แผนภูมิแท่ง (Bar Chart) – แสดงความแตกต่างในเชิงปริมาณได้ชัดเจน ใช้แสดงปริมาณข้อมูลแต่ละส่วน
4.2.3 กราฟเส้น (Line Graph) – แสดงมิติของการเปลี่ยนแปลงได้ดี โดยใช้พื้นที่แสดงข้อมูลแต่ละรายการน้อยกว่าแผนภูมิแท่ง ทำให้เสนอจำนวนรายการข้อมากได้มากกว่า
4.2.4 แผนภาพการกระจาย (Scatter Plot) – แสดงการกระจายของข้อมูล การเปรียบเทียบได้ดี รวมถึงทำให้เห็นแนวโน้มของความสัมพันธ์ของข้อมูล 2 ประเภทที่สนใจได้
4.3 การทำข้อมูลให้เป็นภาพอย่างเหมาะสม
การนำเสนอข้อมูลด้วยภาพ ไม่ได้จำกัดเฉพาะการใช้รูปแบบมาตรฐานที่กล่าวมาเท่านั้น ยังสามารถนำเสนอข้อมูลในรูปแบบอื่น ๆ ให้น่าสนใจได้อีก โดยอาศัยการนำเสนอข้อมูลให้เป็นภาพ ตามหลักการมองเห็นและการรับรู้ของจาคส์ เบอร์ติน (Jacques Bertin) ซึ่งเป็นผู้ริเริ่มการทำข้อมูลให้เป็นภาพ (Information Visualization) โดยกำหนดตัวแปรในการมองเห็น (Visual Variables) ไว้ 7 อย่าง ได้แก่ ตำแหน่ง ขนาดรูปร่าง ความเข้ม สี ทิศทาง ลวดลาย
4.4 การเล่าเรื่องราวจากข้อมูล (Data Story Telling)
ในการถ่ายทอดเนื้อหา ความรู้ ผลลัพธ์จากข้อมูลที่ผ่านการวิเคราะห์และประมวลผลออกมาเป็นภาพ จำเป็นต้องมีกลวิธีในการเล่าเรื่องราว (Story) เพื่อเชื่อมโยงหรือสื่อสารให้เข้ากับผลลัพธ์ของข้อมูล ทำให้ผู้รับสารเกิดความสนใจในการติดตามเรื่องราวตั้งแต่ต้นจนจบ และมีความเข้าใจตรงตามความต้องการของผู้สร้างเนื้อหา
การนำเสนอเนื้อหาให้ประสบความสำเร็จ อาจใช้วิธีการนำเสนอ 4 รูปแบบ ดังนี้
แบบตู้กดน้ำ – เปรียบเสมือนการพูดคุยในขณะกดน้ำ มีเวลาในการสนทนาเพียงช่วงสั้นๆ เปรียบเทียบได้กับการสรุปเนื้อหาที่มีปริมาณมาก ให้เหลือแต่ใจความสำคัญและอธิบาย-สื่อสารด้วยภาพ เช่น การทำข้อมูลให้เป็นภาพ กราฟ แผนภูมิ
แบบร้านกาแฟ – เปรียบเสมือนการพูดคุยกันในร้านกาแฟ มีเวลาในการสนทนามากขึ้น เล่าเรื่องราวระหว่างกัน เนื้อหาที่นำเสนอมีความยาวหรือมีรายละเอียดมาก ต้องเล่าเรื่องราวของให้หาให้อยู่ในความสนใจของผู้ฟัง
แบบห้องสมุด – เปรียบเสมือนการเข้าศึกษาเนื้อหาในห้องสมุด ที่มีเอกสาร ตำราวิชาการ งานวิจัย ต้องค้นคว้าเชิงลึกในสิ่งที่สนใจ จึงเป็นการนำเสนอเนื้อหาให้ผู้อ่านมีปฏิสัมพันธ์กับเนื้อหาและอยากศึกษาค้นคว้าเพิ่มเติมเพื่อให้เข้าใจเชิงลึกมากขึ้น
แบบห้องทดลอง – เปรียบเสมือนการทดลองและลงมือปฏิบัติการในห้องทดลอง ที่ได้รับประสบการณ์จากการลงมือปฏิบัติจริง จึงต้องให้ผู้อ่านมีปฏิสัมพันธ์กับเนื้อหาและสามารถแลกเปลี่ยนประสบการณ์ แบ่งปันสิ่งที่ตนเองทราบให้กับผู้อื่น
4.5 ข้อควรระวังในการนำเสนอข้อมูล
การใช้ตัวแปรในการมองเห็นผลลัพธ์ของข้อมูล จะต้องระวังไม่ให้ตัวแปรที่ใช้แสดงผลด้านอื่นที่ไม่ได้ตั้งใจปรากฏออกมา เพราะจะทำให้ผู้รับสารตีความผิด หรือเข้าใจความหมายไม่ตรงกับข้อมูลที่ต้องการสื่อสาร