วิทยาการข้อมูล (อังกฤษ: Data science) เป็นสหสาขาวิชาที่ใช้วิธีการ กระบวนการ อัลกอริทึม และระบบทางวิทยาศาสตร์มาใช้เพื่อหาความรู้จากข้อมูลหลากหลายรูปแบบ ทั้งจัดเก็บเป็นระเบียบและไม่เป็นระเบียบ เป็นสาขาที่เกี่ยวข้องกับการทำเหมืองข้อมูล การเรียนรู้เชิงลึก และข้อมูลขนาดใหญ่ ดังนั้น
วิทยาการข้อมูล (Data Science) หมายถึง การนำข้อมูลมาใช้ประโยชน์ โดยครอบคลุมตั้งแต่ขั้นตอนการเก็บข้อมูล (Collect) การจัดการข้อมูล (Manage) การวิเคราะห์ข้อมูล (Analyze) ไปจนถึงขั้นตอนการนำข้อมูลมาช่วยตัดสินใจ (Decision)
Data Science ประกอบด้วย Computer Science + Maths & Statistics + Business Domain Expertise
1. Computer Science – วิทยาการคอมพิวเตอร์ เช่น การเขียนโปรแกรม, อัลกอริธึม, โครงสร้างข้อมูล (Data Structure)
2. Maths & Statistics – คณิตศาสตร์ และสถิติ
3. Business / Domain Expertise – ความรู้ด้านธุรกิจ
เช่น คนที่เก่งด้านการเขียนโปรแกรมมากๆ และเข้าใจ Maths & Statistics เล็กน้อย สามารถทำงานเป็นวิศวกร ML (Machine Learning Engineer) หรือผู้ทำหน้าที่พัฒนา Machine Learning ด้วยการเขียนโค้ด เขียนโปรแกรม และประสานงานกับนักวิทยาศาสตร์ข้อมูล (Data Scientist) เพื่อนำโมเดล Data Science มาทำเป็นซอฟแวร์ที่ใช้ได้จริง
Machine Learning คือ การเรียนรู้ของเครื่องจักร คือการสร้างเทคโนโลยีที่ให้ระบบ AI (ปัญญาประดิษฐ์ : Artificial Intelligence ) ทำงานได้โดยอัตโนมัติตามที่วางโปรแกรมไว้ แทนที่จะใช้แรงงานมนุษย์ในการลงมือทำ
งาน Data Science (วิทยาการข้อมูล) ต้องทำอะไรบ้าง
ขั้นตอนการทำงานด้าน Data Science ประกอบด้วย 1. Collect 2. Manage 3. Analyze 4. Decision มีรายละเอียดในแต่ละขั้นตอนดังต่อไปนี้
ตัวอย่างข้อมูลคนเข้าเว็บไซต์จาก Google Analytics ที่เราสามารถดึงผ่าน Google API มาใช้ได้เลย
การเก็บข้อมูลสามารถทำได้หลายวิธี ซึ่งขึ้นอยู่กับข้อมูลที่เราต้องการเก็บ เช่น
1) ถ้าต้องการเก็บ Log การใช้เว็บไซต์ ก็อาจจะเขียน JavaScript วางไว้ในเว็บไซต์ของเรา เพื่อเก็บการกระทำต่าง ๆ ของผู้ใช้
2) ถ้าต้องการเก็บข้อมูลจากเว็บไซต์อื่น เราต้องเขียนโปรแกรมดึงข้อมูลทาง API หรือ Scrape ข้อมูลจากหน้าเว็บไซต์
3) หรือสำหรับคนที่หัด Data Science ผ่านเว็บไซต์อย่าง Kaggle ก็จะเห็นว่าข้อมูลเค้าเก็บมาให้เราเรียบร้อยแล้ว เราสามารถ Download แล้วนำมาใช้ได้เลย
เมื่อเก็บข้อมูลมาแล้ว ก็ต้องมาคิดว่า… “จะเก็บข้อมูลไว้ที่ไหนดี” ซึ่งเป็นที่มาของขั้นตอนต่อไป
60% ของเวลาในการทำงานทั้งหมดของ Data Scientist มาจาก Data Wrangling นั่นเอง – ขอบคุณรูปภาพจาก Forbes
หลังจากเก็บรวบรวมข้อมูลแล้ว เราต้องนำข้อมูลมาผ่านการแปรรูปให้นำมาใช้ต่อได้ง่าย เรียกขั้นตอนนี้ว่า “การทำความสะอาดข้อมูล” หรือ Data Wrangling / Data Cleaning ซึ่งขั้นตอนนี้ค่อนข้างยุ่งยากและใช้เวลามากที่สุดในการทำงานในสาย Data Science
หลังจากทำความสะอาดข้อมูลเสร็จแล้ว จึงจัดเก็บข้อมูลลงฐานข้อมูล ซึ่งปัจจุบันมีฐานข้อมูลหลากหลายแบบให้เลือกใช้ เช่น SQL หรือ NoSQL, OLTP หรือ OLAP ฯลฯ เราต้องเลือกให้ถูกต้องตามเป้าหมายของการนำไปใช้ต่อ
นอกจากนั้นขั้นตอนนี้ยังต้องคอยดูเรื่องนโยบาย (Policy) ของบริษัทหรือของรัฐบาลด้วย เช่น บริษัทอาจจะมีนโยบายเก็บข้อมูลย้อนหลัง 365 วัน เราก็ต้องเตรียมสคริปต์ในการล้างข้อมูลเมื่อถึงเวลาที่กำหนด
หลังจากจัดการข้อมูลและเก็บข้อมูลไว้พร้อมใช้เรียบร้อยแล้ว ขั้นตอนต่อไปคือการนำข้อมูลนั้นมาทำให้เกิดประโยชน์ให้มากที่สุดกับองค์กรหรือบริษัท
ขั้นตอนนี้คนให้ความสนใจมากที่สุดในยุคปัจจุบันนี้ เพราะข้อความต่าง ๆ เช่นคำว่า Machine Learning หรือ Deep Learning ก็อยู่ในขั้นตอนนี้นั่นเอง
Deep Leaning คือ ชุดคำสั่ง (algorithm) ที่ถูกสร้างขึ้นมาเพื่อการเรียนรู้ของเครื่องจักรหรือเครื่องคอมพิวเตอร์ โดยชุดคำสั่งนี้จะทำให้ตัวเครื่องจักรสามารถประมวลผลข้อมูลจำนวนมาก ด้วยการจำลองเครือข่ายประสาทแบบเดียวกับในสมองของมนุษย์ เป็นวิธีการหนึ่งของการเรียนรู้ของเครื่องที่พยายามเรียนรู้วิธีการแทนข้อมูลอย่างมีประสิทธิภาพ เช่น รูปภาพหนึ่งสามารถแทนได้เป็นเวกเตอร์ของความสว่างต่อจุดพิกเซล หรือมองในระดับสูงขึ้น เป็นเซ็ตของขอบของวัตถุต่างๆ หรือมองว่าเป็นพื้นที่ของรูปร่างใดๆก็ได้ การแทนความหมายดังกล่าวจะทำให้การเรียนรู้ที่จะทำงานต่างๆทำได้ง่ายขึ้น ไม่ว่าจะเป็นการเรียนรู้จดจำใบหน้าหรือการรู้จำการแสดงออกทางสีหน้า
สำหรับการวิเคราะห์ข้อมูล เราอาจจะต้องใช้ความสามารถในการเขียนโปรแกรม โดยใช้ภาษาคอมพิวเตอร์ ภาษาใดภาษาหนึ่งที่สนใจ มาช่วยในการวิเคราะห์ (บทความ : 7 ภาษาโปรแกรมมิ่งที่สำคัญสำหรับ Data Science หากสนใจสามารถค้นหาข้อมูลเพื่อศึกษาเพิ่มเติมได้)
จากขั้นตอนที่แล้ว พอมีข้อมูลพร้อมใช้เรียบร้อย ขั้นต่อไปเป็นนำข้อมูลมาวิเคราะห์เพื่อหาสิ่งที่น่าสนใจในข้อมูลนั้น ซึ่งขึ้นอยู่กับว่าโจทย์ที่เราต้องการแก้ปัญหา พัฒนา หรือสิ่งที่สนใจคืออะไร อาจแบ่งได้เป็น 2 โจทย์หลัก ๆ ในการวิเคราะห์ดังนี้
1. Finding insights – วิเคราะห์เพื่อหาสิ่งที่ซ่อนอยู่ในข้อมูล สำหรับนำมาใช้ตัดสินใจเรื่องต่าง ๆ ในธุรกิจ เช่น ยอดขายกางเกงยีนส์เดือนธันวาคมของ 5 ปีที่ผ่านมาสูงกว่าสินค้าอื่น ๆ อย่างมาก เราก็สามารถปรับแผน Marketing ให้เหมาะสมได้
2. Modelling – วิเคราะห์เพื่อหารูปแบบ (Pattern) ที่ซ่อนอยู่ในข้อมูล และพยายามสร้าง Model เลียนแบบหน้าตาของข้อมูลออกมาให้เหมือนที่สุด สำหรับนำมาใช้ทำนายผล เช่น เราพบว่ายอดขายของไอศกรีมมีความสัมพันธ์เป็นเส้นตรงเมื่อเทียบกับอุณหภูมิเฉลี่ยในแต่ละวัน เราก็สามารถจัดโปรโมชั่นพิเศษในช่วงที่อากาศหนาวเพื่อดึงดูดลูกค้าเพิ่มขึ้นได้
สิ่งที่หลาย ๆ คนเข้าใจผิด คือ เข้าใจว่า Data Science ต้องทำการสร้าง Model ตลอดเวลา ซึ่งจริง ๆ แล้วบางปัญหาแค่ต้องการข้อมูลเชิงลึก (Insights) ไม่ใช่ Model ในการแก้ไข
ในขั้นตอนนี้เราจะได้ใช้ประโยชน์จากการสำรวจข้อมูล (Data Exploration) ด้วย เพราะหลายครั้งการพล๊อตกราฟ มาดูการกระจายของข้อมูล (Distribution) ก็มีประโยชน์กว่าการดูเฉพาะสถิติตัวเลขอย่างเดียว ลองดูจากตัวอย่างด้านล่างจะเห็นได้ชัดเจน
กราฟทุกภาพในนี้มีค่า Mean, SD, Correlation เท่ากันหมด แต่หน้าตา Distribution ไม่เหมือนกันเลย ถ้าเราเห็นแค่ตัวเลขแล้วสรุปจากตัวเลขก็จะเข้าใจข้อมูลผิดได้
– ขอบคุณรูปภาพจากคุณ Justin Matejka, George Fitzmaurice (2017) Autodesk Research
พอจบขั้นตอนนี้ เราก็จะได้ผลวิเคราะห์ (หรือโมเดล) เพื่อนำไปใช้ประโยชน์กับธุรกิจจริง ๆ ได้
ขั้นตอนนี้ ผู้ที่ทำงาน Data Science มีหน้าที่สรุปผลวิเคราะห์ให้เข้าใจง่าย ๆ เพื่อนำไปเสนอผู้ร่วมงานในฝ่ายบริหาร ซึ่งเป็นที่มาว่าทำไมหลายแห่งบอกว่า Data Scientist ต้องมี “ความสามารถในการสื่อสาร” (Communication Skill) นั่นเอง
ในการแสดงผลการวิเคราะห์ ไม่จำเป็นต้องพูดปากเปล่าเสมอไป เราสามารถแสดงเป็นรูปภาพให้ฝ่ายบริหารเข้าใจง่ายขึ้นได้ ความสามารถด้าน Data Visualization จะมีประโยชน์มากในขั้นตอนนี้
ตัวอย่างการทำ Data Visualization แสดงราคาหุ้น
หลังจากการอธิบายผลการวิเคราะห์ให้ผู้ร่วมงานหรือฝ่ายบริหารทราบแล้ว หน้าที่ของ Data Science สามารถแนะนำแนวทางปฏิบัติโดยอิงจากผลการวิเคราะห์ที่ผ่านมาได้ ซึ่งแปลว่า นอกจากวิเคราะห์ข้อมูลได้แล้วยังต้องมีความเข้าใจในธุรกิจและเข้าใจถึงปัญหาที่เกิดขึ้นในองค์กรด้วย
ที่มา : https://blog.datath.com/data-science/ 10/12/2565 บทความ : dataTH
ดังนั้น วิทยาการข้อมูลจึงเป็นศาสตร์ที่เป็นการบูรณาการสถิติศาสตร์ การวิเคราะห์ข้อมูล และการเรียนรู้ของเครื่องเข้าด้วยกันเพื่อให้สามารถเข้าใจและวิเคราะห์ปรากฏการณ์ที่เกิดขึ้นจริงในข้อมูลได้ ใช้เทคนิคและทฤษฎีที่ได้มาจากคณิตศาสตร์ สถิติศาสตร์ วิทยาการคอมพิวเตอร์ และวิทยาการสารสนเทศ
จิม เกรย์ นักวิทยาศาสตร์ผู้ได้รับรางวัลทัวริง มองว่า วิทยาการข้อมูลเป็นวิทยาศาสตร์แขนงที่สี่ ต่อยอดมาจากวิทยาศาสตร์การทดลอง วิทยาศาสตร์ทฤษฎี และวิทยาศาสตร์เชิงคำนวณ โดยเชื่อว่าทุกอย่างที่เกี่ยวข้องกับวิทยาศาสตร์กำลังจะเปลี่ยนไปโดยอิทธิพลของเทคโนโลยีสารสนเทศและการเพิ่มขึ้นของข้อมูล
เส้นทางอาชีพวิทยาการข้อมูล
วิทยาการข้อมูลเป็นศาสตร์ที่กำลังเติบโต นักวิทยาการข้อมูลเป็นอาชีพหนึ่งที่ได้รับเงินเดือนระดับที่สูงมากในสหรัฐอเมริกา โดยมีค่ามัธยฐานอยู่ที่ 118,370 ดอลลาร์สหรัฐต่อปี หรือประมาณ 56.91 ดอลลาร์ต่อชั่วโมง การเติบโตของสายงานสูงกว่าค่าเฉลี่ยของแรงงานในตลาด คาดว่าจะเติบโตราวร้อยละ 16 ระหว่างปี ค.ศ. 2018 ถึง ค.ศ. 2028
· นักวิทยาศาสตร์การเรียนรู้ของเครื่อง มีหน้าที่วิจัยหาวิธีการวิเคราะห์ข้อมูลแบบใหม่และสร้างอัลกอริทึม
· นักวิเคราะห์ข้อมูล ใช้ข้อมูลขนาดใหญ่เพื่อรวบรวมข้อมูลที่ตรงตามความความสนใจของบริษัท
· ที่ปรึกษาด้านข้อมูล ทำงานร่วมกับภาคธุรกิจเพื่อศึกษาว่าจะใช้ข้อมูลจากการวิเคราะห์ให้เกิดประโยชน์ได้อย่างไร
· สถาปนิกข้อมูล สร้างโซลูชันข้อมูลที่เหมาะสมกับการนำไปใช้งาน
· สถาปนิกการนำไปใช้งาน ติดตามการนำไปใช้งานตลอดทั้งวงจรธุรกิจ
ผลกระทบของวิทยาการข้อมูล
เครื่องมือวิเคราะห์ข้อมูลขนาดใหญ่เริ่มเป็นเครื่องมือสำคัญสำหรับภาคธุรกิจและบริษัททุกระดับ การมีข้อมูลขนาดใหญ่และมีความสามารถในการตีความได้เปลี่ยนแปลงโมเดลธุรกิจรูปแบบเก่า ก่อให้เกิดการสร้างโมเดลแบบใหม่ ธุรกิจที่เกิดจากข้อมูลมีมูลค่ารวมกันสูงถึง 1.2 ล้านล้านดอลลาร์สหรัฐในปี ค.ศ. 2020 เพิ่มขึ้นจากปี ค.ศ. 2015 ที่มีอยู่เพียง 333 พันล้านดอลลาร์ นักวิทยาการข้อมูลเป็นผู้ที่ย่อยข้อมูลให้อยู่ในรูปแบบที่มีประโยชน์ สร้างซอฟต์แวร์และอัลกอริทึมที่ช่วยให้บริษัทและองค์กรค้นพบวิธีการที่ดีที่สุดในการดำเนินธุรกิจ ข้อมูลขนาดใหญ่มีผลกระทบอย่างมหาศาลทั่วโลก
· ภาษาไพธอน เป็นภาษาคอมพิวเตอร์ที่ใช้กันทั่วไปในวงการวิทยาการข้อมูล มีไลบรารีให้เลือกใช้มากมา
· ภาษาอาร์ เป็นภาษาคอมพิวเตอร์ที่ใช้สำหรับการวิเคราะห์ทางสถิติและการทำเหมืองข้อมูล
· TensorFlow เป็นเฟรมเวิร์คที่ใช้ในการสร้างโมเดลการเรียนรู้ของเครื่อง พัฒนาโดยกูเกิล
· PyTorch เป็นเฟรมเวิร์คที่ใช้ในการสร้างโมเดลการเรียนรู้ของเครื่อง พัฒนาโดยเฟซบุ๊ค
· Jupyter เป็นส่วนติดต่อกับผู้ใช้รูปแบบเว็บสำหรับการเขียนภาษาไพธอนที่ทำให้การทำงานสะดวกขึ้น
· Tableau Software ใช้สำหรับการนำเสนอข้อมูลด้วยภาพ
· อะแพชีฮาดูป เป็นเฟรมเวิร์คสำหรับประมวลผลข้อมูลขนาดใหญ่ในระบบปฏิบัติการเชิงกระจาย
ที่มา : https://th.wikipedia.org/wiki/วิทยาการข้อมูล สืบค้นเมื่อ 24 ตุลาคม 2564
บทสรุป :
เทคโนโลยีวิทยาการข้อมูลข้างต้น นักวิทยาศาสตร์ข้อมูล ใช้ในการดำเนินการประมวลผลข้อมูลจำนวนมากๆ ซึ่งเกินกว่าที่โปรแกรมสำเร็จรูปจะสามารถจัดเก็บหรือประมวลผลได้ จึงจำเป็นต้องใช้วิธีการนำเข้าและประมวลผลข้อมูลด้วยโปรแกรมภาษา หรือใช้โปรแกรมสำเร็จรูปเฉพาะสำหรับงานด้านวิทยาการข้อมูลที่นักโปรแกรมเมอร์เขียนขึ้นด้วยโปรแกรมภาษาต่าง ๆ ดังกล่าว
หากนักเรียนจะเรียนรู้ในเรื่องของการเขียนโปรแกรมภาษา เพื่อเขียนโปรแกรมใช้เองนั้นค่อนข้างต้องใช้ความรู้ความสามารถ ความตั้งใจและความอดทนที่สูงมาก การประมวลผลด้วยโปรแกรมสำเร็จรูปน่าจะเป็นทางเลือกที่ดีที่สุด เรียนรู้ง่าย ใช้กับข้อมูลจำนวนไม่มากนัก ซึ่งน่าสนใจเช่นกัน โปรแกรมสำเร็จรูปสำหรับงานวิทยาการข้อมูลที่จะเรียนรู้ต่อไป นั่นคือ โปรแกรมตารางการทำงาน (Microsoft Excel) นั่นเอง