เรื่องที่ 1 การวิเคราะห์ข้อมูล

การวิเคราะห์ข้อมูลเบื้องต้น

ความหมาย

คําว่า “สถิติ” เป็นเรื่องที่มีความสําคัญและจําเป็นอย่างยิ่งต่อการตัดสินใจหรือวางแผน ซึ่งแต่เดิม เข้าใจว่า สถิติ หมายถึง ข้อมูลหรือข่าวสารที่เป็นประโยชน์ต่อการบริหารงานของภาครัฐ เช่น การ จัดเก็บภาษี การสํารวจผลผลิต ข้อมูลที่เกี่ยวข้องกับประชากร จึงมีรากศัพท์มาจากคําว่า “State” แต่ ปัจจุบันสถิติ มีความหมายอยู่ 2 ประการ คือ

1. ตัวเลขที่แทนข้อเท็จจริงที่มีการแปรเปลี่ยนไปตามปริมาณสิ่งของที่วัดเป็นค่าออกมา เช่น สถิติเกี่ยวกับจํานวนนักเรียนในโรงเรียน จํานวนนักเรียนที่มาและขาดการเรียนในรอบเดือน ปริมาณ น้ําฝนในรอบปี จํานวนอุบัติเหตุการเดินทางในช่วงปีใหม่และสงกรานต์ เป็นต้น

2. สถิติในความหมายของวิชาหรือศาสตร์ที่ตรงกับภาษาอังกฤษว่า “Statistics” หมายถึง กระบวนการจัดกระทําของข้อมูลตั้งแต่การเก็บรวบรวมข้อมูล การวิเคราะห์ข้อมูล การนําเสนอข้อมูล และการตีความหรือแปลความหมายข้อมูล เป็นต้น

การศึกษาวิชาสถิติจะช่วยให้ผู้เรียนมีความรู้ความเข้าใจในระเบียบวิธีสถิติที่เป็นประโยชน์ใน ชีวิตประจําวัน ตั้งแต่การวางแผน การเลือกใช้ และการปฏิบัติในการดําเนินงานต่าง ๆ รวมทั้งการ แก้ปัญหาในเรื่องต่าง ๆ ทั้งในวงการศึกษาวิทยาศาสตร์ การเกษตร การแพทย์ การทหาร ธุรกิจต่าง ๆ เป็นต้น กิจการต่าง ๆ ต้องอาศัยข้อมูลสถิติและระเบียบสถิติต่าง ๆ มาช่วยจัดการ ทั้งนี้เนื่องจากการ ตัดสินใจหรือการวางแผน และการแก้ปัญหาอย่างมีหลักเกณฑ์จะทําให้โอกาสที่จะตัดสินใจเกิดความ ผิดพลาดน้อยที่สุดได้ นอกจากนี้หลักวิชาทางสถิติยังสามารถนําไปประยุกต์ใช้กับการจัดเก็บรวบรวมข้อมูล เพื่อความ จําเป็นที่ต้องนําไปใช้งานในด้านต่างๆ โดยเฉพาะอย่างยิ่งทําให้ทราบข้อมูล และทําความเข้าใจกับ ข่าวสารและรายงานข้อมูลทางวิชาการต่าง ๆ ที่นําเสนอในรูปแบบของตาราง แผนภูมิ แผนภาพ กราฟ ซึ่งผู้อ่านหากมีความรู้ความเข้าใจในเรื่องของสถิติเบื้องต้นแล้ว จะทําให้ผู้อ่านสามารถรู้และเข้าใจใน ข้อมูลและข่าวสารได้เป็นอย่างดี

1.1 ชนิดของข้อมูล อาจแบ่งได้เป็นดังนี้

1. ข้อมูลเชิงคุณภาพ (Qualitative data) เป็นข้อมูลที่แสดงถึง คุณสมบัติ สภาพ สถานะ หรือความคิดเห็น เช่น ความสวย ระดับการศึกษา เพศ อาชีพ เป็นต้น

2. ข้อมูลเชิงปริมาณ (Qualitative data ) เป็นข้อมูลที่เป็นตัวเลข เช่น ข้อมูลที่เกิดจากการ ชั่ง ตวง หรือ ค่าของข้อมูลที่นําปริมาณมาเปรียบเทียบกันได้ เช่น ความยาว น้ําหนัก ส่วนสูง สถิติของ คนงานแยกตามเงินเดือน เป็นต้น

นอกจากนี้ยังมีข้อมูลซึ่งสามารถแยกตามกาลเวลาและสภาพภูมิศาสตร์อีกด้วย แหล่งที่มาของข้อมูล โดยปกติข้อมูลที่ได้มาจะมาจากแหล่งต่าง ๆ อยู่ 2 ประเภท คือ

- ข้อมูลปฐมภูมิ ( Primary data ) หมายถึง ข้อมูลที่รวบรวมมาจากผู้ให้หรือแหล่งที่ เป็นข้อมูลโดยตรง เช่น การสํารวจนับจํานวนพนักงานในบริษัทแห่งหนึ่ง

- ข้อมูลทุติยภูมิ ( Secondary data ) หมายถึง ข้อมูลที่รวบรวมหรือเก็บมาจาก แหล่งข้อมูลที่มีการรวบรวมไว้แล้ว เช่น การคัดลอกจํานวนสินค้าส่งออกที่การท่าเรือได้รวบรวมไว้

1.2 การเก็บรวบรวมข้อมูล

การเก็บรวบรวมข้อมูลในทางสถิติจะมีวิธีการเก็บรวบรวมข้อมูลได้ 3 วิธี ตาม ลักษณะของการปฏิบัติ กล่าวคือ

1) วิธีการเก็บข้อมูลจากการสํารวจ การเก็บรวบรวมข้อมูลวิธีนี้เป็นที่ใช้กันอย่าง แพร่หลาย โดยสามารถทําได้ตั้งแต่การสํามะโน การสอบถาม / สัมภาษณ์จากแหล่งข้อมูลโดยตรง รวมทั้งการเก็บรวบรวมข้อมูลที่เกิดเหตุจริง ๆ เช่น การเข้าไปสํารวจผู้มีงานทําในตําบล หมู่บ้าน การแจงนับนักท่องเที่ยวที่เข้ามาในจังหวัด หรืออําเภอ การสอบถามข้อมูลคนไข้ที่นอนอยู่ในโรงพยาบาล เป็นต้น วิธีการสํารวจนี้สามารถกระทําได้หลายกรณี เช่น

1.1 การสอบถาม วิธีที่นิยม คือ การส่งแบบสํารวจหรือแบบข้อคําถามที่ เหมาะสม เข้าใจง่ายให้ผู้อ่านตอบ ผู้ตอบมีอิสระในการตอบ แล้วกรอกข้อมูลส่งคืน วิธีการสอบถามอาจ ใช้สื่อทางไปรษณีย์ ทางโทรศัพท์ เป็นต้น วิธีนี้ประหยัดค่าใช้จ่าย

1.2 การสัมภาษณ์ เป็นวิธีการรวบรวมข้อมูลที่ได้คําตอบทันที ครบถ้วน เชื่อถือได้ดี แต่อาจเสียเวลาและค่าใช้จ่ายค่อนข้างสูง การสัมภาษณ์ทําได้ทั้งเป็นรายบุคคลและเป็นกลุ่ม

2) วิธีการเก็บข้อมูลจากการสังเกต เป็นวิธีการรวบรวมข้อมูลโดยการบันทึกสิ่งที่ พบเห็นจริงในขณะนั้น ข้อมูลจะเชื่อถือได้มากน้อยอยู่ที่ผู้รวบรวมข้อมูล สามารถกระทําได้เป็นช่วง ๆ และเวลาที่ต่อเนื่องกันได้ วิธีนี้ใช้ควบคู่ไปกับวิธีอื่นๆ ได้ด้วย

3) วิธีการเก็บข้อมูลจากการทดลอง เป็นการเก็บรวบรวมข้อมูลที่มีการทดลอง หรือปฏิบัติอยู่จริงในขณะนั้นข้อดีที่ทําให้เราทราบข้อมูล ขั้นตอน เหตุการณ์ที่ต่อเนื่องที่ถูกต้องเชื่อถือได้ บางครั้งต้องใช้เวลาเก็บข้อมูลที่นานมาก ทั้งนี้ต้องอาศัยความชํานาญของผู้ทดลอง หรือผู้ถูกทดลองด้วย จึงจะทําให้ได้ข้อมูลที่มีความคลาดเคลื่อนน้อยที่สุด

อนึ่ง การเก็บรวบรวมข้อมูล ถ้าเราเลือกมาจากจํานวนหรือรายการของข้อมูลที่ ต้องการเก็บมาทั้งหมดทุกหน่วยจะเรียกว่า “ประชากร” ( Population ) แต่ถ้าเราเลือกมาเป็นบางหน่วย และเป็นตัวแทนของประชากรนั้น ๆ เราจะเรียกว่า กลุ่มตัวอย่างหรือ “ ตัวอย่าง” ( Sample )

1.3 การวิเคราะห์ข้อมูล

การวิเคราะห์ข้อมูล เป็นการแยกข้อมูลสถิติที่ได้มาเป็นตัวเลขหรือข้อความจากการรวบรวม ข้อมูลให้เป็นระเบียบพร้อมที่จะนําไปใช้ประโยชน์ตามความต้องการ ทั้งนี้รวมถึงการคํานวณหรือหา ค่าสถิติในรูปแบบต่าง ๆ ด้วย มีวีธีการดําเนินงานดังนี้

1.3.1 การแจกแจงความถี่ ( Frequency distribution ) เป็นวิธีการจัดข้อมูลของสถิติที่มีอยู่ หรือ เก็บรวบรวมมาจัดเป็นกลุ่มเป็นพวก เพื่อความสะดวกในการที่นํามาวิเคราะห์ เช่น การวิเคราะห์ค่าเฉลี่ย ค่าความแปรปรวนของข้อมูล เป็นต้น การแจกแจงความถี่จะกระทําก็ต่อเมื่อมีความประสงค์จะวิเคราะห์ ข้อมูลที่มีจํา นวนมาก ๆ หรือข้อมูลที่ซ้ํา ๆ กัน เพื่อช่วยในการประหยัดเวลา และให้การสรุปผลของ ข้อมูลมีความรัดกุมสะดวกต่อการนําไปใช้และอ้างอิง รวมทั้งการนําไปใช้ประโยชน์ในด้านอื่น ๆ ต่อไปด้วย

ส่วนคําว่า “ตัวแปร” ( Variable ) ในทางสถิติ หมายถึง ลักษณะบางสิ่งบางอย่างที่เราสนใจจะ ศึกษาโดยลักษณะเหล่านั้นสามารถเปลี่ยนค่าได้ ไม่ว่าสิ่งนั้นจะเป็นข้อมูลเชิงปริมาณหรือคุณภาพ เช่น อายุของนักศึกษาการศึกษาทางไกลที่วัดออกมาเป็นตัวเลขที่แตกต่างกัน หากเป็นเพศมีทั้งเพศชายและ หญิง เป็นต้น

การแจกแจงความถี่แบ่งออกเป็น 4 แบบคือ

1. การแจกแจงความถี่ทั่วไป

2. การแจกแจงความถี่สะสม

3. การแจกแจงความถี่สัมพัทธ์

4. การแจกแจงความถี่สะสมสัมพัทธ์

1. การแจกแจงความถี่ทั่วไป จัดแบบเป็นตารางได้ 2 ลักษณะ

1) ตารางการแจกแจงความถี่แบบไม่จัดเป็นกลุ่ม เป็นการนําข้อมูลมาเรียงลําดับจากน้อยไปหา มาก หรือมากไปหาน้อย แล้วดูว่าจํานวนในแต่ละตัวมีตัวซ้ําอยู่กี่จํานวน วิธีนี้ข้อมูลแต่ละช่วงชั้นจะ เท่ากันโดยตลอด และเหมาะกับการแจกแจงข้อมูลที่ไม่มากนัก

ตัวอย่างที่ 1 คะแนนการสอบวิชาคณติศาสตร์ของนักศึกษา 25 คน คะแนนเต็ม 15 คะแนน มีดังนี้

12 9 10 14 6

13 11 7 9 10

7 5 8 6 11

4 10 2 12 8

10 15 9 4 7

2) การแจกแจงความถี่แบบจัดเป็นกลุ่ม การแจกแจงความถี่แบบจัดเป็นกลุ่มนี้เรียกว่าจัดเป็น อันตรภาคชั้น เป็นการนําข้อมูลมาจัดลําดับจากมากไปหาน้อย หรือน้อยไปหามากเช่นกัน โดยข้อมูล แต่ละชั้นจะมีช่วงชั้นที่เท่ากัน การแจกแจงแบบนี้เหมาะสําหรับจัดกระทํากับข้อมูลที่มีจํานวนมาก

ตัวอย่างที่ 2 อายุของประชากรในหมู่บ้านหนึ่งจํานวน 45 คน เป็นดังนี้

41 53 61 42 15 39 65 40 64 22 54

71 62 50 81 43 60 16 63 31 52 36

47 48 90 73 83 78 56 50 80 45 22

37 51 49 55 78 60 90 31 44 22 66 46

1. การแจกแจงความถี่ที่เป็นอันตรภาคชั้น มีคําเรียกความหมายของคําต่าง ๆ ดังต่อไปนี้

1.1 อันตรภาคชั้น ( Class interval ) หมายถึง ข้อมูลที่แบ่งออกเป็นช่วง ๆ เช่น อันตรภาค ชั้น 11-20 , 21 -30 ,61–70 ,81-90 เป็นต้น

1.2. ขนาดของอันตรภาคชั้น หมายถึง ความกว้าง 1 ช่วงของข้อมูลในแต่ละชั้น จาก 11-20 หรือ 61-70 จะมีค่าเท่ากับ 10

1.3 จํานวนของอันตรภาคชั้น หมายถึง จํานวนช่วงชั้นทั้งหมดที่ได้แจกแจงไว้ในที่นี้ มี 10 ชั้น

1.4 ความถี่ ( Frequency ) หมายถึง รอยขีดที่ซ้ํากัน หรือจํานวนข้อมูลที่ซ้ํากันในอันตรภาค ชั้นนั้น ๆ เช่น อันตรภาคชั้น 41-50 มีความถี่เท่ากับ 11 หรือมีผู้ที่มีอายุในช่วง 41-50 มีอยู่ 11 คน

1.4 การแจกแจงความถี่สะสม

ความถี่สะสม ( Commulative frequency ) หมายถึง ความถี่สะสมของอันตรภาคใด ที่เกิดจากผลรวมของความถี่ของอันตภาคนั้น ๆ กับความถี่ของอันตรภาคชั้นที่มีช่วงคะแนนต่ํากว่าทั้งหมด ( หรือสูงกว่าทั้งหมด )

ตัวอย่างที่ 3 ข้อมูลส่วนสูง (เซนติเมตร) ของพนกังานคนงานโรงงานแห่งหนึ่ง จํานวน 40 คนมีดังนี้

142 145 160 174 146 154 152 157 185 158

164 148 154 166 154 175 144 138 174 168

152 160 141 148 152 145 148 154 178 156

166 164 130 158 162 159 180 136 135 172

หมายเหตุ ความถี่สะสมของอันตรภาคชั้นสุดท้ายจะเท่ากับผลรวมของความถี่ทั้งหมดและสิ่งที่ควรทราบ ต่อไปได้แก่ ขีดจํากัดล่าง ขีดจํากัดบนและจุดกึ่งกลางชั้น

1.5 การแจกแจงความถี่สัมพัทธ์

ความถี่สัมพัทธ์ ( Relative frequency ) หมายถึง อัตราส่วนระหว่างความถี่ของอันตรภาค ชั้นนั้นกับผลรวมของความถี่ทั้งหมด ซึ่งสามารถแสดงในรูปจุดทศนิยม หรือร้อยละก็ได้

ตัวอย่างที่ 4 การแจกแจงความถี่สัมพัทธ์ของส่วนสูงนักศึกษา

1.6 การแจกแจงความถี่สะสมสัมพัทธ์

ความถี่สะสมสัมพัทธ์ ( Relative commulative frequency ) ของอันตภาคใด คือ อัตราส่วนระหว่างความถี่สะสมของอันตรภาคชั้นนั้นกับผลรวมของความถี่ทั้งหมด

ตัวอย่างที่ 5 การแจกแจงความถี่สะสมสัมพัทธ์ของส่วนสูงนักศึกษา

1.7 ขีดจํากัดชั้น ( Class limit )

หมายถึง ตัวเลขที่ปรากฏอยู่ในอันตรภาคชั้น แบ่งเป็นขีดจํากัดบน และขีดจํากัดล่าง ( ดูตารางในตัวอย่างที่ 5 ประกอบ)

1.1 ขีดจํากัดบนหรือขอบบน ( Upper boundary ) คือ ค่ากึ่งกลางระหว่างคะแนนที่มาก ที่สุดในอันตรภาคชั้นนั้นกับคะแนนน้อยที่สุดของอันตรภาคชั้นที่ติดกันในช่วงคะแนนที่สูงกว่า เช่น อันตรภาคชั้น 140 -149

นั่นคือ ขีดจํากัดบนของอันตรภาคขั้น 140 – 149 คือ 149.5

1.2 ขีดจํากัดล่างหรือขอบล่าง ( Lower boundary ) คือ ค่ากึ่งกลางระหว่างคะแนนที่ น้อยที่สุดในอันตรภาคชั้นนั้นกับคะแนนที่มากที่สุดของอันตรภาคชั้นที่อยู่ติดกันในช่วงคะแนนที่ต่ำกว่า เช่น ตัวอย่างอันตรภาคชั้น 140 – 149

นั่นคือ ขีดจํากัดล่างของอันตภาคขั้น 140 – 149 คือ 139.5

1.8 จุดกึ่งกลางชั้น ( Mid point )

เป็นค่าหรือคะแนนที่อยู่ระหว่างกลางของอันตรภาคชั้นนั้นๆ นอกจากนี้ยังสามารถแสดงการแจกแจงความถี่ของข้อมูลโดยใช้ฮิสโทแกรม (Histogram ) รูปหลายเหลี่ยมของความถี่ (Frequency polygon ) เส้นโค้งของความถี่ (Frequency curve )