Процес організації великої аналітики (обрис)
Цінність великих «сирих» даних визначається нашою здатністю вилучати з них «сенс», корисний за змістом і зручний за формою. Практика вимагає виділяти цінний екстракт швидко, використовуючи «свіжі» дані.
Коли сукупність доступних даних охоплює екстремальне широкий спектр інформації, фірма (організація) може виконувати багато оперативних функцій автоматизовано, майже повністю на основі ВД.
Отже, треба будувати замкнений комп'ютеризований цикл технологій – від збору даних до кінцевого застосування результатів (рішень, керування). «Непрозорі» й не-комп'ютерні процедури виносяться за межі «оперативного» циклу керування. (За штабами фірми залишаються функції нагляду (супервізія) та вищий рівень керування.) Виконання аналітичного завдання завершується видачею моделі або результату в формі, придатній для кінцевого застосування. (Вживають термін «actionable outputs».) Такий результат може використовуватися протягом певного періоду, коли виконується «короткий» цикл аналітики (для керування використовують «свіжі» дані звуженої номенклатури). Схема циклів життя ВД та ВеАн (великий цикл, цикл аналізу, цикл використання) зображена на рис. 1.
Оскільки ВеАн використовує переважно статистичні методи, дані мають складатися з списку випадків (прикладів), що характеризують однотипні об'єкти або той самий об'єкт у варіабельних умовах. Випадки можуть трактуватися як екземпляри популяції, прецеденти, транзакції, цикли та періоди функціонування. (Існують дані, де поняття випадків та прикладів не збігаються ). Більшість традиційних методів аналізу потребують, щоб дані всіх випадків складалися з єдиного набору ат рибутів і збиралися за єдиною схемою вимірювання. Більшість класичних методів й процедур аналізу даних розраховані на зручно форматовані дані (зазвичай – у формі таблиці), що вміщуються в пам'яті комп'ютера. Натомість ВД наповнені переважно «сирими», різнорідними, неузгодженими, невпорядкованими та неструктурованими даними.
Інформація щодо певного випадку може знаходитися у різних файлах і сховищах. Іноді доводиться розглядати як «випадок» не тільки вектор чисел, а й цілий образ, текст, структуру і т. д. В деяких даних неясно, як розрізнити і виділити окремі випадки.
Дані, що зберігаються у сховищах, можна поділити на:
1) структуровані;
2) «гнучко-структуровані» або слабкоструктуровані;
3) неструктуровані.
До структурованих відносять дані, організовані за жорсткою схемою. Кожна одиниця (запис) даних складається з уніфікованого набору позицій, і кожну позицію займає елемент (атрибут) відповідного відомого змісту. (Часто це елементи одного типу, наприклад, дійсні числа.) Така структуризація гарантує прості й «прозорі» процедури імпорту даних в усіх платформах.
Гнучко-структурованими можна назвати дані, де не зафіксовано набору позицій для елементів. До цього виду належать дані широкого спектру, включаючи довільні послідовності символів, графові структури, мовні тексти й гіпертексти. До гнучко-структурованих треба віднести також дані, які побудовані за рекурсивними схемами (з невизначеними розмірами).
Текст має свою структуру, визначену синтаксисом, граматикою та іншими обмеженнями, але така структуризація не забезпечує однозначної інтерпретації елементів (слів) і не підтримується стандартними процедурами обробки. Неструктуровані дані не мають чітко визначеної структури. Для використання неструктурованих даних потрібні нестандартні процедури конверсії, спеціальна розмітка, додаткові дескриптори і т. п. Схожі проблеми виникають, коли дані структуровані, але структура фіксації даних нерегулярна і невідповідна (або невідома аналітику). Маємо проблеми, коли не тільки фізична, але й логічна структура даних не збігається із змістовною («семантичною») структурою. Такі дані виникають, наприклад, коли записується потік сигналів або коли об'ємне зображення описується простою послідовністю точок (пікселів). Можна виділити також дані з частковоневідомою структурою. Деякі дані можна інтерпретувати та «зрозуміти» тільки з допомогою «автора» даних.
Процес великої аналітики включає два етапи:
1) доставка та компіляція даних (пошук, добір, фільтрація, агрегація, комплектування, інтеграція, зменшення розмірності, синхронізація, переформатування);
2) власне глибокий аналіз підготовлених даних.
Ланцюг проходження завдання ВеАн показано на рис. 2. Етап глибокого аналізу даних у свою чергу може складатися з ланцюга завдань. Попередня обробка може залучати методи, які традиційно розглядалися як методи власне аналізу даних (аналіз головних компонент, random projection і т. д.).
На рис. 3 запропоновано один з варіантів систематизації великої аналітики за родами задач та типами результатів.
Велика аналітика. Проміжні підсумки
Великі дані є одним зі знакових трендів новітніх інформаційних технологій у розвинутих країнах. Великі дані породжуються швидкісними автоматичними засобами реєстрації інформації, вбудованими в реальні об'єкти.
Витрати на збір та зберігання великих даних виправдовуються їх результативним використанням, в першу чергу – через глибокий аналіз даних, коли величезний масив сирих даних перетворюється («перетравлюється») на компактну, концентровану й цінну інформацію кінцевого споживання. Аналіз може бути глибоким тільки коли є багата і рясна «сировина».
Взагалі, великі дані можуть бути використані у наступних режимах: «інтелектуальний» пошук інформації; масована переробка даних («відпрацювання», concentration, mining) за один-два проходи; виведення моделі об'єкту (джерела) з даних; екстракція знань з даних (відкриття закономірностей).
Деякі фірми вже впроваджують замкнені комп'ютеризовані технології, що охоплюються увесь цикл оперативного керування – від збору даних до кінцевого застосування (рішень). Великі дані є родючою сировиною для глибокого аналізу (принаймні для аналізу зв'язків) тільки коли вони багатовимірні. Великі дані в принципі можуть забезпечити інформацію, достатню для планування і знайдення оптимальних рішень. Проте потенційна «повнота» даних часто залишається «віртуальною».
Великі дані часто є неструктурованими, «гнучко-структурованими» або слабко-структурованими. Крім того, великі дані часто є вертикальносекціонованими («розщепленими»). Перед власне результативним аналізом необхідно виконати підготовку даних. Цей етап може включати такі процедури, як пошук, добір, доставка, фільтрація, агрегація, інтеграція, синхронізація, пере-форматування. Водночас іноді потрібно зменшувати вимірність даних (без втрати їх змістовності). Можна очікувати, що у майбутньому технології збору даних прогресують, пристрої стануть «тямущими», а інфраструктура розростеться у масштабах. Це забезпечить постачання багатовимірних інтегрованих даних, готових для негайного аналізу. Проте проникнення таких засобів у життя суспільства буде входити у суперечність з правом на приватність й конфіденційність.
Велика аналітика увібрала багатий арсенал кількох дисциплін та набутки різних напрямків розробок. Вона спирається на фундамент статистичної методології (включаючи розвідковий та конфірмативний аналіз даних), методи оптимізації та пошуку, методи репрезентації знань та візуалізації багатовимірних даних. Адаптується досвід таких напрямків, як відкриття знань в даних (Data Mining, Knowledge Discovery in Data) і методи самонавчання алгоритмів (Machine Learning). Кілька напрямків досліджень і розробок стали опорами і складовими великої аналітики (рис. 5).