Вам уже відомо з курсу алгебри 9-го класу, що в багатьох дослідженнях для аналізу даних, установлення певних закономірностей, формулювання висновку, надання рекомендацій, прогнозування тощо потрібно використати багато даних. Ви знаєте, що методи отримання, опрацювання й аналізу даних, які характеризують масові явища, вивчає наука статистика (лат. status — стан).
Так, наприклад, для аналізу тенденцій змінення маси учнів 10-х класів України за останні роки, ризику серцевих захворювань людей певного віку на планеті, популярності продуктів харчування серед населення певного регіону потрібно проаналізувати сотні тисяч або навіть мільйони даних.
Зрозуміло, що провести зважування, вивчити історії хвороб, провести анкетування сотень тисяч або навіть мільйонів людей практично неможливо. Тому для аналізу створюють певну вибірку об’єктів дослідження, тобто з усієї множини об’єктів дослідження відбирають певну кількість і на ній проводять дослідження. Чим більше така вибірка, тим точніше буде проведено аналіз і зроблено відповідні висновки. Тобто вибірка повинна бути масовою.
Але не тільки кількість даних у вибірці визначає рівень точності аналізу і висновків. Так, у першому і другому з наведених вище прикладів доцільно вибирати людей різних регіонів і різної статі, а у третьому — людей різного віку. Кажуть, що вибірка даних має бути репрезентативною (франц. representatif — показовий, характерний, типовий).
Дані, отримані з дослідженої вибірки, найчастіше заносять у таблицю. Така форма подання даних з вибірки зручна для їх аналізу та прогнозів. Дані з кожного рядка і стовпця такої таблиці утворюють ряди даних.
У таблиці подано результати виступів команди учнів України на міжнародних олімпіадах з інформатики з 2005 по 2017 рік. Тут вибіркою є вказані в таблиці роки, а рядами даних — загальна кількість медалей у ці роки, а також кількість золотих, срібних і бронзових медалей у вказані роки.
Зауважимо, що Україна бере участь у таких олімпіадах, починаючи з 1992 року. Команда кожної країни складається із чотирьох учнів. У 2016 році команда України не брала участі у такій олімпіаді.
За цими рядами даних або за деякими з них можна побудувати графіки або діаграми і візуалізувати їх, використовуючи, наприклад, табличний процесор.
На малюнку подано діаграму динаміки посівних площ соняшнику в Україні в 1998–2015 роках і графік врожайності соняшнику в Україні за ці роки. Тут вибіркою є 2005–2017 роки, а рядами даних — посівні площі та врожайність соняшнику в ці роки.
Як приклад розглянемо роботу синоптичної служби. Синоптична служба збирає і зберігає дані про температуру, опади, атмосферний тиск та інші показники вже понад 160 років.
Для прогнозування температури та ймовірності опадів у Львові в першій декаді червня наступного року для проведення екскурсії потрібно вибрати відповідні дані, наприклад, за останні 10–15 років саме про Львів і саме про першу декаду червня, проаналізувати отримані два ряди даних (про температуру і кількість опадів) і зробити відповідний прогноз погоди.
Ви знаєте, що середнім арифметичним n чисел називається сума цих чисел, поділена на число n.
Так можна знайти середнє арифметичне врожайності соняшнику в Україні за 2006-2015 роки, використовуючи, наприклад, табличний процесор. Для обчислення середнього арифметичного в табличному процесорі можна використати відому вам функцію AVERAGE (англ. avеragе — середній), Нагадаємо, що аргументами цієї функції може бути діапазон клітинок, список клітинок, а також їх комбінації,наприклад AVERAGE(B2:D5; F4; E7). На малюнку 2,8 наведено приклад обчислення середньої врод-кайності соняшнику за 2006-2015 роки і формулу для її обчислення =AVERAGE(C3:C12).
Обчислене в наведеному прикладі середнє арифметичне визначає,яка б була врожайність кожного року (1.67 T/ra), якшо вона щороку була б однаковою. Аналогічно середнє арифметичне будь-якого ряду даних визначає, які б були значення в цьому ряді, якщо б вони всі були однакові. Зазначимо, що не для всіх рядів даних середнє арифметичне є показовою характеристикою самого цього ряду.
Наприклад, для ряду даних 2.5; 2.8; 2.3; 2.55; 2.47, у якому дані незначно відрізняються одне від одного, середнє арифметичне дорівнює 2.524, що незначно відрізняється від усіх членів цього ряду, а значить, достатньо показово характеризує весь цей ряд даних. А для ряду 4.7; 6.2; 5.1; 12.4; 14.1, у якому дані значно відрізняються одне від одного, середнє арифметичне дорівнює 8,5, що значно відрізняється від усіх членів цього ряду, а значить, недостатньо показово характеризує весь цей ряд даних.
Для визначення, наскільки показово середнє арифметичне ряду даних характеризує весь ряд даних, можна використати таку характеристику ряду даних, як стандартне відхилення. Стандартно відхилення характеризує, наскільки широко розташовані значення ряду даних відносно їх середнього арифметичного.
Пригадайте можливості електронного процесора. Наведіть приклади використання автоматизованого опрацювання табличних даних.
Розглянемо, як можна використовувати програмний засіб MS Excel для обчислення статистичних даних на прикладі.
Очевидно, що середнє арифметичне першого ряду даних менше відрізняється від усіх членів ряду даних, а значить, більш показово характеризує весь цей ряд даних.
А середнє арифметичне другого ряду даних більше відрізняється від усіх членів ряду даних, а значить, менш показово характеризує весь цей ряд даних.
Автоматизувати обчислення стандартного відхилення в табличному процесорі можна, використавши функцію STDEV.P (англ. standard deviarion — стандартне відхилення) (для версії нижче 2010 — STDEVP).
Мода — це значення в ряді даних, яке повторюється найчастіше. Таке значення є показовим, наприклад, під час дослідження цін на ринку (ціна, яка трапляється найчастіше), під час дослідження попиту взуття, одягу (розміри, які купують найбільше) та ін.
У розглянутому вище прикладі мода кількостей медалей, які вибороло учнівство України на міжнародних олімпіадах з інформатики за 2005-2017 роки, дорівнює 4 (тoму, що найчастіше в ці роки команда нашої країни завойовувала- 4 медалі), мода кількостей золотих медалей – 0, мода кількостей срібних медалей – l, мода кількостей бронзових медалей - 2.
Якшо в ряді даних два або більше значень повторюються найбільшу кількість разів, то кожне з них вважається модою ряду даних. Так, наприклад, у ряді даних 2, 3, З, 2, 1 модою є і число 2, і число 3.
У табличному процесорі є спеціальна функція для обчислення моди ряду даних. Обчислення стандартного відхилення в табличному процесорі якшо вона одна – MODE.SNGL (англ. mode single — мода одинарна). Аргументами цієї функцції може бути діапазон клітинок, список клітинок. а також їх комбінації, наприклад AIODE.SNGL(B2:D5; F4; E7).
На малюнку наведено приклад обчислення моди для кількостей завойованих медалей і формула для її обчислення: =MODE.SNGL(E6:E17).
Медіаною впорядкованого ряду даних називається значення, яке поділяє ряд даних на дві рівні частини, тобто зліва і справа від цього значення знаходиться однакова кількість членів упорядкованого ряду даних.
Якщо у впорядкованому ряді даних непарна кількість членів, то медіана такого ряду даних дорівнює значенню його середнього члена, а якщо в такому ряді даних парна кількість членів, то його медіана обчислюється як середнє арифметичне значень двох середніх членів.
Наприклад. для ряду даних 2; З; 5; б; 7 медіана дорівнює 5, для ряду даних 2; З; 5; б: 7; 9 медіана дорівнює (5 + 6) :2 = 5,5. а для ряду даних 2; 2; 4: 4: 4; 5; 6 медіана дорівнює 4.
Медіана використовується. наприклад. для визначення місця побудови шкіл, дитячих садочків, магазинів. підприємств побуту тощо. Потрібно визначити ряд відстаней, які мають подолати мешканці певної місцевості до цього закладу, і побудувати його в точці. яка визначається медіаною цього ряду.
У табличному процесорі є спеціальна функція для обчислення медіани ряду даних - MEDIAN (англ. median— середній). Аргументами цієї функції може бути діапазон клітинок, список клітинок, а також їх комбінації, наприклад MEDIAN(В2:D5; F4: E7).
На малюнку наведено приклад обчислення медіани ряду даних урожайності соняшнику з використанням табличного процесора за формулою =MEDIAN(С3:С12).
Звертаємо вашу увагу, що в електронній таблиці для знаходження медіани ряд даних не обов'язково має бути впорядкований. Табличний процесор спочатку впорядковує ряд даних, а потім визначає його медіану.
Зазначимо, що коли члени ряду даних незначно відрізняються одне від одного, то і середнє арифметичне, і медіана більш показово характеризують весь цей ряд.
А якщо члени ряду даних значно відрізняються одне від одного, то медіана більш показово характеризує весь цей ряд даних, ніж середнє арифметичне.
Для розуміння, як використовувати функції підрахунку статистичних характеристик, виконайте практичну роботу.
Увага! Під час роботи з комп'ютером дотримуйтеся вимог безпеки життєдіяльності та санітарно-технічних норм.
Задача На шкільних змаганнях з легкої атлетики проводять два півфінальних забіги. У фінал проходить половина учасників кожного півфіналу. У таблиці наведено результати учасників одного з півфіналів. Обчисліть середнє арифметичне, стандартне відхилення, моду й медіану наведеного ряду даних.
Для цього:
Запустіть табличний процесор.
Заповніть діапазони клітинок В2:В15 і C2:C11 відповідно до зразка.
Уведіть у клітинку C12 формулу =AVERAGE(C2:C11).
Уведіть у клітинку C13 формулу =STDEV.P(C2:C11).
Уведіть у клітинку C14 формулу =МODE.SNGL(C2:C11).
Уведіть у клітинку С15 формулу =МEDIAN(C2:C11).
Збережіть електронну книгу у вашій папці у файлі з іменем вправа 2.2.
Запишіть у зошит пояснення. яка з отриманих характеристик указаного ряду даних визначить. хто з учасників цього півфіналу вийде у фінал.
Змініть 2-3 числа у клітинках C2:C11. Запишіть у зошит, у яких клітинках ви змінили значення і на які а також, як змінилися результати обчислень за формулами у клітинках C12: C15.
Закрийте вікно табличного процесора