Яким тиражем слід видати підручник з алгебри для 9 класу?
Чи варто певному політику висувати свою кандидатуру на чергових виборах мера?
Скільки кілограмів риби та морепродуктів уживає в середньому за рік один житель України?
Чи вигідно для концерту даного артиста орендувати стадіон?
На ці та багато інших запитань допомагає відповідати статистика.
Збирання даних Варто зазначити, що статистичний висновок, заснований лише на чисельності вибірки, не завжди є достовірним.
Наприклад, якщо ми, досліджуючи популярність артиста, обмежимося опитуванням людей, які прийшли на його концерт, то отримані висновки не будуть об’єктивними, адже вони прийшли на концерт саме тому, що цей артист їм подобається. Статистики говорять, що вибірка має бути репрезентативною (від фр. représentatif — показовий).
Так, лікарі, вивчаючи фактори ризику виникнення серцевосудинних захворювань, досліджували людей різного віку, професій,національностей тощо.
Отже, збирання даних має має ґрунтуватися на масовості та репрезентативності вибірки.
Способи подання даних
Зібрану інформацію (сукупність даних) зручно подавати у вигляді таблиць, графіків, діаграм.
У багатьох випадках дані зручно подавати у вигляді стовпчастої діаграми, яку ще називають гістограмою (від грец. histos — стовп і gramma — написання). Така інформація легко сприймається та добре запам’ятовується.
Стовпчасті діаграми та графіки зазвичай використовують тоді, коли хочуть продемонструвати, як з плином часу змінюється деяка величина.
Аналіз даних, висновки та рекомендації
Звернемося до прикладу 1. Наведена таблиця дозволяє дізнатися, скільки в середньому медалей за рік виборювали школярі України на міжнародних математичних олімпіадах. Для цього потрібно кількість усіх медалей, отриманих протягом періоду, що розглядається, поділити на кількість років. Наприклад, за період 1993–2016 рр. маємо:
У статистичній інформації середні значення отриманих сукупностей даних трапляються досить часто. Наприклад, наведемо таблицю реалізації основних продуктів харчування через мережі великих магазинів у деяких країнах (у кілограмах на людину за рік).
Таку таблицю можуть використовувати, наприклад, економісти в дослідженнях, висновках і рекомендаціях, власники магазинів і виробники продукції при плануванні своєї діяльності.
Проте середнє значення не завжди точно (адекватно) відображає ситуацію.
Наприклад, якщо в країні доходи різних верств населення дуже різняться, то середній дохід на одну людину для більшості жителів може не відображати їхнього матеріального стану.
Наприклад, у якійсь країні 100 жителів — дуже багаті, а решта 5 мільйонів — дуже бідні. Тоді показник середнього доходу може виявитися не низьким, а отже, неадекватно відображатиме загальну бідність населення.
У подібних випадках для аналізу даних використовують інші характеристики.
За допомогою прикладу 1 складемо таблицю, яка відображає кількість медалей кожного виду:
Таку таблицю називають частотною, а числа, записані в другому рядку, — частотами.
Частота 55 показує, що українські школярі найчастіше завойовували срібні медалі. Показник «срібні медалі» називають модою отриманих даних.
Саме мода є найважливішою характеристикою тоді, коли отримана сукупність даних не є числовою множиною.
Продемонструємо це на такому прикладі.
Одна відома фірма, яка планує постачати джинси в Україну, провела опитування репрезентативної вибірки, що складалася з 500 осіб. У результаті отримали таку частотну таблицю:
Зауважимо, що якби в таблиці дві частоти були б рівні та набували найбільших значень, то модою були б два відповідних розміри.
Дослідження сукупності даних можна порівняти з роботою лікаря, який ставить діагноз. Залежно від скарг пацієнта або симптомів, що спостерігаються, лікар вибирає певну методику пошуку причини хвороби. Зрозуміло, що ця методика визначає точність діагнозу.
Так само й у статистиці: залежно від зібраної інформації та способу її отримання застосовують різні методи її обробки.
Ці методи можуть доповнювати один одного, якийсь із них може точніше (адекватніше), ніж інші, відображати конкретну ситуацію.
Так, аналізуючи виступи українських школярів на міжнародних математичних олімпіадах, можна встановити, що статистичні характеристики середнє значення та мода вдало узгоджуються.
А в прикладі, який визначає ходовий розмір джинсів, найбільш прийнятним є пошук моди.
Чим більшим є арсенал методик обробки даних, тим об’єктивніший висновок можна отримати.
Ознайомимося ще з однією важливою статистичною характеристикою.
Сім’я вирішила зробити ремонт на кухні та цікавиться, скільки коштує покласти один квадратний метр кахляної плитки. Вивчивши прейскурант 11 будівельних фірм, вони отримали таку інформацію (ціни записано в гривнях у порядку зростання):
80, 80, 90, 90, 100, 130, 180, 200, 300, 450, 500.
Сім’я хоче вибрати фірму із середніми цінами.
Середнє значення отриманої сукупності даних дорівнює 200.
Проте отримані дані показують, що ціну 200 грн скоріше можна віднести до високих, ніж до середніх. Зазначимо, що число 130 стоїть посередині упорядкованої сукупності даних. Його називають медіаною цієї вибірки. У розглядуваній ситуації саме медіана допомагає вибрати фірму із середніми цінами. Справді, у послідовності з 11 чисел є п’ять менших від 130 і п’ять більших за 130.
Середнє значення, моду та медіану називають мірами центральної тенденції отриманої сукупності даних.
24.5.° Знайдіть міри центральної тенденції сукупності даних:
1) 3, 3, 4, 4, 7, 7, 7, 7, 8, 8, 10;
2) 12, 13, 14, 16, 18, 18, 19, 19, 19.
24.13.• Директор фірми отримує 50 000 грн на місяць, два його заступники — по 20 000 грн, а решта 17 робітників фірми — по 4500 грн на місяць. Знайдіть середнє значення, моду, медіану заробітних плат у цій фірмі.
11