14.09.2022
Відбір та підготовка даних - Розмітка даних - Первинна обробка даних - Передобробка даних
Відбір даних — процес збору та вимірювання інформації про задані змінні, встановлені систематичним способом, що дозволяють відповісти на актуальні питання й оцінити результати. Компонент збору даних певного дослідження характерний для всіх областей дослідження, серед яких фізика, суспільні науки, гуманітарні науки і бізнес. Це допомагає нам відібрати основні моменти як зібрану інформацію. У той час як методи можуть різнитися залежно від дисципліни, акцент на забезпечення точних і правдивих даних залишається. Мета всього збору даних полягає в тому, щоб відібрати якісні данні, які потім будуть переведені до аналізу усіх даних і дозволять створити переконливі та достовірні відповіді на запитання, які були поставлені.
Важливість
Незалежно від області дослідження або переваги визначення даних (кількісних[en] або якісних[en]), точний збір даних має важливе значення для підтримки цілісності досліджень. Вибір відповідних інструментів збору даних (існуючих, модифікованих або заново розроблених) і чітке окреслення інструкцій щодо їх правильного використання, зменшують ймовірність виникнення помилок.
Формальний процес збору даних є необхідним, оскільки це гарантує те, що зібрані дані є і визначеними, і точними, і що наступні рішення, на основі аргументів, втілених у висновках, є справедливими.[2] . Процес забезпечує як базис, від якого слід вимірювати, так і в деяких випадках мітки на те, що треба покращувати.
Типи
Загалом, існує три типи відбору даних:
1. Соцопитування: стандартизовані письмові або телефонні опитування, які ставлять заздалегідь визначені запитання.
2. Інтерв'ю: структуровані або неструктуровані розмови один на один з ключовими особами або лідерами в спільноті
3. Фокус-групи: структуровані інтерв'ю з невеликими групами подібних осіб, використовуючи стандартні запитання, додаткові питання, а також дослідження інших питань, які виникають, щоб краще зрозуміти учасників.
Наслідки неправильно зібраних даних:
Нездатність точно відповісти на питання дослідження;
Нездатність повторити і підтвердити дослідження.
Вплив помилкових даних
Спотворені дані призводять до марної витрати ресурсів і можуть ввести в оману інших дослідників, які у свою чергу будуть проводити даремні напрямки досліджень. Це ставить під загрозу рішення державної політики.
У той час як ступінь впливу від неправильного збору даних може варіюватися в залежності від дисципліни і характеру загалом, є можливість заподіяти шкоду непропорційно, коли ці результати досліджень використовуються для підтримки рекомендацій державної політики.
Підготовка даних.
Задача вибору правильних атрибутів з джерела даних і представлення їх в правильному форматі займає високий відсоток часу в процесі побудови аналітичних моделей. Ця секція надає інструменти для основних задач підготовки даних до початку їх поглибленого аналізу.
Передобробка даних (нормування та центрування даних).
Нормування (англ. normalize) — у хемометриці — перетворення числових даних таким чином, щоб усі вони лежали в границях між 0 та 1. Для цього від кожного з даних віднімають найменше значення та ділять на діапазон зміни даних (різниця між найбільшим та найменшим значенням). Normalization (English normalize) — in chemometrics — transformation of numerical data so that they all lie within the boundaries between 0 and 1. For this, the smallest value is subtracted from each of the data and divided by the range of data change (the difference between the largest and smallest value) .
Отримані при зборі даних початкові (первинні) оцінки виконання експериментальних завдань далеко не завжди зручно використовувати в подальшій роботі. Їх тим чи іншим способом перетворять. Найбільш частими перетвореннями являются центрування і нормування середнньоквадратичними відхиленнями. Під центруванням розуміється лінійна трансформація величин ознаки, при якій середня величина розподілу певної ознаки стає рівною нулю. Напрямок шкали і її одиниці залишаються при цьому незмінними.
Суть нормування полягає в переході до іншого масштабу - стандартизованим одиницях виміру. При стандартизовані результатів тестових випробувань нормування найчастіше здійснюється за допомогою середньоквадратичних відхилень. Стандартизацiя даних проводиться при нормальному розподілі тестових оцінок або для близького до нього за типом.
У машинному навчанні нормалізацією називають метод попередньої обробки числових ознак у навчальних наборах даних з метою приведення їх до деякої загальної шкали без втрати інформації про відмінність діапазонів.
Іноді нормалізацію даних називають стандартизацією, проте це не так. Стандартизація це ширше поняття і передбачає передобробку з метою приведення даних до єдиного формату та подання, найбільш зручному для використання певного виду обробки. На відміну від нормалізації стандартизація може застосовуватися і до категоріальних даних.
Необхідність нормалізації викликана тим, що різні ознаки навчального набору даних можуть бути представлені в різних масштабах та змінюватись у різних діапазонах. Наприклад, вік, який змінюється від 0 до 100, і дохід, що змінюється від кількох тисяч до кількох мільйонів. Тобто діапазони зміни ознак «Вік» та «Дохід» різняться у тисячі разів.
І тут виникає порушення балансу між впливом вхідних змінних, поданих у різних масштабах, на вихідну змінну. Тобто. цей вплив зумовлено реальною залежністю зі зміною масштабу. В результаті, модель, що навчається, може виявити некоректні залежності.
Існує кілька основних методів нормалізації.
Десяткове масштабування (decimal scaling) У цьому методі нормалізація проводиться шляхом переміщення десяткової точки на число розрядів, що відповідає порядку числа: Наприклад, нехай є набір значень: -10, 201, 301, -401, 501, 601, 701. Оскільки n = 3 (бо 1000), то кожне значення, що спостерігається, ділимо на 1000 і отримуємо: -0.01, 0.201, 0.301, -0.401, 0.501, 0.601, 0.701. Нескладно побачити недолік попереднього методу (десяткового масштабування): результуючі значення завжди займатимуть не весь діапазон [0,1], а лише його частину, залежно від найбільшого та найменшого значень, що спостерігаються. Якщо вихідний діапазон малий (скажімо, 400 - 500), то отримаємо, що в результаті десяткового масштабування нормалізовані значення лежатимуть у діапазоні [0.4,0.5], тобто. його мінливість виявиться дуже низькою, що погано позначається на якості побудованої моделі.