Проблеми з класифікацією використовуються, коли невідома змінна є дискретною. Зазвичай проблема полягає в оцінці, до якого з набору заздалегідь визначених класів належить конкретний зразок. Типовими прикладами класифікації є розпізнавання зображень або діагностування патологій за допомогою медичних тестів або виявлення облич на знімку.
Візуальну інтерпретацію проблеми класифікації можна побачити у двох вимірах, де точки, що належать до різних класів, позначені різним символом, аналогічним зображенню рис. 7.2.
Алгоритм "вивчає" приклади розташування та форму граничної лінії між класами.
Регресійний аналіз
Регресійний аналіз – один із найдавніших і найбільш часто використовуваних статистичних методів аналізу даних. Основна ідея регресії – це кількісна оцінка математичної залежності між однією або декількома незалежними (також їх називають предиктором) змінною (змінними) і залежною змінною (також її називають цільовою). Регресійний аналіз спирається на набір даних спостережуваних прогнозів і цільових значень. Взаємозв'язок, або функція регресії може бути використана для оцінки значень залежної змінної за межами діапазону спостережуваних значень. Іншими словами, регресійна модель дозволяє аналітику екстраполювати поза наявним набором даних.
Наприклад, при роботі з даними часових рядів, регресія дозволяє аналітику прогнозувати майбутні значення з історичних даних. Регресія шукає зв’язок між будь-якими типами неперервних змінних. Зокрема, вона намагається відповісти на загальне запитання: "на скільки зміниться змінна V1, якщо змінна (змінні) V2 (V3, V4, V5) зміниться (зміняться) на величину X?" Простий спосіб візуалізації функції регресії – уявити набір точок у двох вимірах (рис. 7.3).
Змінна передбачення за умовами, побудованою на осі X, – це частка ліцензованих водіїв у різних географічних районах. На осі Y використовуються значення для цільової змінної, – відповідне споживання бензину. У цьому випадку можлива функція регресії представлена червоною лінією. Той факт, що в цьому прикладі це пряма лінія, говорить про дуже інтуїтивний результат: збільшення ліцензованих водіїв у цьому районі спричинить пропорційне збільшення споживання бензину. Хоча просте візуальне вивчення розподілу точок даних свідчить про те, що лінія найкраще підходить, регресія не обмежує форму функції регресії.
Типи регресійного аналізу
Найпоширенішим типом регресії є лінійні регресії. Вони є найпростішими як з обчислювальної, так і з математичної точки зору; і, отже, представляють перший варіант для аналітика даних, представленого проблемою регресії. Незважаючи на назву, лінійна регресія не передбачає встановлення лінії через точки даних. Термін лінійний означає, що функція регресії завжди намагатиметься підходити до даних, використовуючи середньозважене середнє значення інших функцій, будь то лінійна чи ні. Властивість лінійності спрощує обчислення параметрів регресійної моделі, одночасно дозволяючи використовувати практично будь-яку фігуру для відповідності спостереженням. Найпростіший випадок лінійної регресії складається з підгонки до прямої лінії. Це також називається простою лінійною моделлю, як показано на рис.7.4.
Висока кореляція Пірсона вказує на те, що проста лінійна модель є хорошим кандидатом для відповідності даним (рис. 7.5).
Процес регресії в цьому випадку складається з знаходження нахилу та перехоплення лінії, що мінімізує суму відстаней між лінією та всіма точками даних, як показано на рис. 7.6.
При використанні лінійних моделей використовується найпоширеніший алгоритм, що використовується для оцінки цих оптимальних параметрів моделі – метод найменших квадратів (МНК)
На рис. 7.7 ми бачимо три набори даних, у кожному є одна цільова та одна змінна предиктора. У всіх трьох випадках можна спостерігати, як, незважаючи на шум, що впливає на спостереження, існує чітка лінія, яка фіксує основні відносини між змінними. Червона лінія являє собою модель лінійної регресії, яка мінімізує відстань від усіх спостережень. Моделі були отримані за допомогою лінійної регресії.
Розглянемо приклад множинної регресії, коли у нас є не одна, а декілька незалежних змінних. Припустимо, набір даних містить деяку інформацію про автомобілі (рис. 7.8).
Застосування регресійного аналізу
Регресійний аналіз має багато застосувань. Його часто використовують у бізнесі та фінансовому аналізі з історичними даними, щоб повідомити про стратегії подальших дій. Він може бути використаний для прогнозування тенденцій в економіці та може інформувати політичні дії для керівництва економічним зростанням. Також можна прогнозувати поведінку клієнтів, щоб визначити нормальну від шахрайської поведінки у сферах страхування та споживчого кредиту.
У галузі охорони здоров'я може бути використана множинна регресія для оцінки того, яка з ряду змінних може впливати на цільову змінну. Наприклад, взаємозв'язок між групою варіантів способу життя, таких як куріння, кількість фізичних вправ та харчових звичок, можна проаналізувати, щоб визначити, як вони впливають на змінну стан здоров'я, наприклад, артеріальний тиск, діабет або навіть тривалість життя. Незалежно від програми, будь-яка модель машинного навчання вимагає перевірки. Деякі моделі дуже чутливі до зовнішніх впливів або аномалій даних. Інші моделі можуть генерувати результати, які можуть бути непридатними для відповіді на питання дослідження.
Висновок
Регресійний аналіз – один з найпоширеніших статистичних методів аналізу даних. Основна мета регресії – визначити математичний зв’язок між однією або кількома незалежними змінними та залежною, тобто цільовою змінною. Лінійні регресії є найпростішими як з обчислювальної, так і з математичної точки зору. Термін "лінійний" означає, що функція регресії завжди намагатиметься відповідати даним, використовуючи середньозважене значення інших функцій, незалежно від того, є ці функції лінійними чи ні. Регресійний аналіз часто використовується у фінансовому та бізнес-аналізі для формування стратегій подальших дій. Він може бути використаний для прогнозування економічних тенденцій та для управління економічним зростанням.
Методи та типи аналізу машинного навчання
Машинне навчання вирішує проблеми та можливості, що надаються аналітикою Big Data для моделювання наявних даних, щоб передбачити майбутні результати.
У своїй книзі Кевін Патрік Мерфі визначає машинне навчання як "... сукупність методів, які дозволяють автоматично виявляти шаблони в даних, а потім використовувати ці шаблони для прогнозування майбутніх даних або для виконання інших видів прийняття рішень в умовах невизначеності".
Наприклад, комп'ютерна програма розроблена відеослужбою, щоб рекомендувати фільми окремим користувачам. Алгоритм аналізує фільми, які глядачі вже переглянули, і фільми, які люди з подібними уподобаннями перегляду високо оцінили. Мета – підвищити задоволеність клієнтів відеопослугою.
Методи машинного навчання застосовуються для широкого спектру застосувань, включаючи розпізнавання мови, медичну діагностику, автошколи, рекламні застосунки з рекомендаціями щодо продажу та багато інших.
Незалежно від програми, алгоритми машинного навчання покращують свою ефективність щодо конкретних завдань на основі багаторазового виконання цих завдань, якщо алгоритм і модель здатні впоратися з підвищеною мінливістю, введеною додатковими даними. Це основний тригер пошуку кращих моделей та алгоритмів.
Машинне навчання охоплює багато різних алгоритмів, деякі з широким спектром застосованості, а інші можуть бути придатні для конкретних програм. Ці алгоритми можна розділити на дві основні категорії: контрольовані та без нагляду. Керовані алгоритми машинного навчання – це найчастіше використовувані алгоритми машинного навчання для прогнозної аналітики. Ці алгоритми покладаються на набори даних, які були оброблені людськими експертами (звідси слово "нагляд"). Потім алгоритми дізнаються, як самостійно виконувати ті самі завдання обробки на нових наборах даних. Зокрема, контрольовані методи використовуються для вирішення проблем регресії та класифікації:
Проблеми з регресією – це оцінка математичних зв’язків між неперервними змінними. Цей математичний взаємозв'язок може бути використаний для обчислення значень однієї невідомої змінної з урахуванням відомих значень інших. Прикладами регресії є оцінка положення та швидкості автомобіля за допомогою GPS, прогнозування траєкторії смерчі за допомогою погодних даних або прогнозування майбутньої вартості запасу з використанням історичних даних та інших джерел інформації.
Щоб подумки уявити найпростіший приклад регресії, уявіть дві змінні, значення яких візуалізуються у вигляді точок у двовимірному графіку, подібних до рис. 7.1. Виконання регресії означає пошук лінії, яка найкраще інтерполює значення. Лінія може приймати різних форм і виражається як функція регресії. Функція регресії дозволяє оцінити значення однієї змінної з урахуванням значення іншої для значень, які раніше не спостерігалися.