Основи статистичного аналізу даних. Ряди даних.

Опрацювати § 10, ст. 93-102

Презентація 10 клас Урок 11.pptx

Обчислення основних статистичних характеристик вибірки


Розглянемо деякі статистичні характеристики вибірки: середнє арифметич не, стандартне відхилення, мода і медіана.

1. Середнє арифметичне

Ви знаєте, що середнім арифметичним n чисел називається сума цих чисел, поді лена на число n.

Так, можна знайти середнє арифметичне врожайності соняшнику в Україні за 2006–2015 роки, використовуючи, наприклад, табличний процесор.

Мал. Обчислення середньої врожайності соняшнику за 2006–2015 роки

Для обчислення середнього арифметичного в табличному процесорі можна використати відому вам функцію AVERAGE (англ. average — середній). Нагадаємо, що аргумен тами цієї функції може бути діапазон клі тинок, список клітинок, а також їх комбі нації, наприклад AVERAGE (B2:D5; F4; E7). На малюнку було наведено приклад об числення середньої врожайності соняш нику за 2006–2015 роки і формулу для її обчислення =AVERAGE (С3:С12).

Обчислене в наведеному прикладі се реднє арифметичне визначає, яка б була врожайність кожного року (1,67 т/га), якщо вона щороку була б однаковою. Анало гічно середнє арифметичне будь-якого ряду даних визначає, які б були зна чення у цьому ряді, якщо б вони всі були однакові.

Зазначимо, що не для всіх рядів даних середнє арифметичне є показовою характеристикою самого цього ряду. Наприклад, для ряду даних 2,5; 2,8; 2,3; 2,55; 2,47, у якому дані незначно відрізняються одне від одного, середнє арифметичне дорівнює 2,524, що незначно відрізняється від усіх членів цього ряду, а значить, достатньо показово характеризує весь цей ряд даних. А для ряду 4,7; 6,2; 5,1; 12,4; 14,1, у якому дані значно відрізняються одне від одного, середнє арифметичне дорівнює 8,5, що значно відрізняється від усіх членів цього ряду, а значить, недостатньо показово характеризує весь цей ряд даних.

2. Стандартне відхилення

Для визначення, наскільки показово середнє арифметичне ряду даних характеризує весь ряд даних, можна використати таку характеристику ряду даних, як стандартне відхилення. Стандартне відхилення характеризує, наскільки широко розташовані значення ряду даних відносно їх середнього арифметичного.

Стандартне відхилення обчислюється за формулою:

де x1, x2, ..., xn — члени ряду даних, а x0 — середнє арифметичне цього ряду даних

Для першого з вищенаведених двох прикладів рядів даних стандартне відхилення дорівнює:

а для другого:

Очевидно, що середнє арифметичне першого ряду даних менше відрізняється від усіх членів ряду даних, а значить, більш показово характеризує весь цей ряд даних. А середнє арифметичне другого ряду даних більше відрізняється від усіх членів ряду даних, а значить, менш показово характеризує весь цей ряд даних.

Автоматизувати обчислення стандартного відхилення в табличному процесорі можна, використавши функцію STDEV.P (англ. standard deviation — стандартне відхилення) (для версії нижче 2010 — STDEVP).

Мал. Обчислення стандартного відхилення в табличному процесорі

3. Мода

Ще однією характеристикою ряду даних є мода.

Мода — це значення в ряді даних, яке повторюється найчастіше. Таке значення є показовим, наприклад, під час дослідження цін на ринку (ціна, яка трапляється найчастіше), під час дослідження попиту взуття, одягу (розміри, які купують найбільше) та ін

У розглянутому вище прикладі мода кількостей медалей, які вибороло учнівство України на міжнародних олімпіадах з інформатики за 2005–2017 роки, дорівнює 4 (тому що найчастіше в ці роки команда нашої країни завойовувала 4 медалі), мода кількостей золотих медалей — 0, мода кількостей срібних медалей — 1, мода кількостей бронзових медалей — 2.

Якщо в ряді даних два або більше значень повторюються найбільшу кількість разів, то кожне з них вважається модою ряда даних Так, наприклад, у ряді даних 2, 3, 3, 2, 1 модою є і число 2, і число 3.

У табличному процесорі є спеціальна функція для обчислення моди ряду даних, якщо вона одна — MODE.SNGL (англ. mode single — мода одинарна) (для версії Excel нижче 2010 і для LibreOffice Calc — MODE) Аргументами цієї функції може бути діапазон клітинок, список клітинок, а також їх комбінації, наприклад MODE.SNGL (B2:D5; F4; E7).

На малюнку наведено приклад обчислення моди для кількостей завойованих медалей і формула для її обчислення: =MODE.SNGL (Е6:Е17).

4. Медіана

Розглянемо ще одну характеристику ряду даних — медіану.

Медіаною впорядкованого ряду даних називається значення, яке поділяє ряд даних на дві рівні частини, тобто зліва і справа від цього значення знаходиться однакова кількість членів упорядкованого ряду даних.

Якщо у впорядкованому ряді даних непарна кількість членів, то медіана такого ряду даних дорівнює значенню його середнього члена, а якщо в такому ряді даних парна кількість членів, то його медіана обчислюється як середнє арифметичне значень двох середніх членів.

Наприклад, для ряду даних 2; 3; 5; 6; 7 медіана дорівнює 5, для ряду даних 2; 3; 5; 6: 7; 9 медіана дорівнює (5 + 6) : 2 = 5,5, а для ряду даних 2; 2; 4; 4; 4; 5; 6 медіана дорівнює 4.

Медіана використовується, наприклад, для визначення місця побудови шкіл, дитячих садочків, магазинів, підприємств побуту тощо Потрібно визначити ряд відстаней, які слід подолати мешканцям певної місцевості до цього закладу, і побудувати його в точці, яка визначається медіаною цього ряду.

У табличному процесорі є спеціальна функція для обчислення медіани ряду даних — MEDIAN (англ. median — середній). Аргументами цієї функції може бути діапазон клітинок, список клітинок, а також їх комбінації, наприклад MEDIAN(B2:D5; F4; E7).

На малюнку наведено приклад обчислення медіани ряду даних урожайності соняшнику з використанням табличного процесора за формулою =MEDIAN(С3:С12).

Звертаємо вашу увагу, що в електронній таблиці для знаходження медіани ряд даних не обов’язково має бути впорядкований. Табличний процесор спочатку впорядковує ряд даних, а потім визначає його медіану.

Зазначимо, що коли члени ряду даних незначно відрізняються одне від одного, то і середнє арифметичне, і медіана більш показово характеризують весь цей ряд. А якщо члени ряду даних значно відрізняються одне від одного, то медіана більш показово характеризує весь цей ряд даних, ніж середнє арифметичне.