Гістограмна оцінка даних

Що таке гістограма

Гістограма (Histogram) - це наближене представлення розподілу числових даних. Вперше цей термін ввів Карл Пірсон. Щоб побудувати гістограму, першим кроком є "розбиття" діапазону значень - тобто розбиття всього діапазону значень на ряд інтервалів - а потім підрахунок кількості значень, що потрапляють в кожен інтервал.

Діапазони (інтервали) повинні бути суміжними і часто (але не обов'язково) однакового розміру.
Якщо інтервали мають однаковий розмір, над ними проводиться смуга висотою, пропорційною частоті - кількості випадків у кожному інтервалі. Гістограма також може бути нормалізована для відображення "відносних" частот, що показують частку випадків, які потрапляють у кожну з декількох категорій, при цьому сума висот дорівнює 1.

Однак, не обов'язково, щоб відсіки були однакової ширини; в такому випадку, площа побудованого прямокутника визначається пропорційно частоті випадків у відсіку. Тоді по вертикальній осі відкладається не частота, а щільність частоти - кількість випадків на одиницю змінної на горизонтальній осі.

Приклади змінної ширини інтервалу наведені нижче на основі даних Бюро перепису населення. Оскільки сусідні діапазони не залишають проміжків, прямокутники гістограми торкаються один одного, вказуючи на те, що вихідна змінна є неперервною.

Гістограми дають приблизне уявлення про щільність основного розподілу даних і часто використовуються для оцінки щільності: оцінки функції щільності ймовірності основної змінної. Загальна площа гістограми, яка використовується для щільності ймовірності, завжди нормується до 1. Якщо довжина інтервалів на осі х дорівнює 1, то гістограма ідентична графіку відносної частоти. 

Приклади гістограм

Це дані для гістограми праворуч, з використанням 500 елементів: 

Слова, що використовуються для опису патернів на гістограмі, є такими: "симетрична", "зміщена вліво" або "вправо", "унімодальна", "бімодальна" або "мультимодальна". 

Бюро перепису населення США виявило, що 124 мільйони людей працюють поза домом. Використовуючи їхні дані про час, який займає дорога на роботу, у таблиці нижче показано, що абсолютна кількість людей, які відповіли, що витрачають на дорогу "щонайменше 30, але менше 35 хвилин", є більшою, ніж у категоріях, що знаходяться вище та нижче. Це, ймовірно, пов'язано з тим, що люди округляють час, який вони витрачають на дорогу. Проблема надання дещо довільно округлених значень є поширеним явищем під час збору даних від людей. 

Ця гістограма показує кількість випадків на одиничний інтервал як висоту кожного блоку, так що площа кожного блоку дорівнює кількості людей в опитуванні, які потрапили в його категорію. Площа під кривою представляє загальну кількість випадків (124 мільйони). Цей тип гістограми показує абсолютні числа, з Q в тисячах. 

Ця гістограма відрізняється від першої лише вертикальною шкалою. Площа кожного блоку - це частка від загальної кількості, яку представляє кожна категорія, а сумарна площа всіх стовпчиків дорівнює 1 (дріб означає "всі"). Відображена крива є простою оцінкою щільності. Ця версія показує пропорції і також відома як гістограма з одиничною площею.

Іншими словами, гістограма представляє розподіл частот за допомогою прямокутників, ширина яких представляє інтервали класів, а площа пропорційна відповідним частотам: висота кожного з них є середньою щільністю частот для інтервалу. Інтервали розміщені разом для того, щоб показати, що дані, представлені гістограмою, хоча і є винятковими, але також є суміжними. (Наприклад, на гістограмі можуть бути два з'єднувальні інтервали 10,5-20,5 і 20,5-33,5, але не два з'єднувальні інтервали 10,5-20,5 і 22,5-32,5. Порожні інтервали відображаються як порожні і не пропускаються).