Малые данные

Суть тенденции. Суть данной тенденции заключается в том, что по мере того как пользователи аккумулируют данные о себе онлайн и в интернете вещей, огромные массивы информации, находящейся в собственности бренда, становятся менее ценными, чем малые данные, собранные самими пользователями и им принадлежащими, поскольку их можно использовать намного оперативнее.

Интернет вещей. Интернет вещей - это объединение физических объектов в проводные и беспроводные сети с целью их интеграции(объединения в целое) с помощью:

а) программного обеспечения;

b)использования разных данных о них;

c)дистанционного управления ими.

Возможно, это будет воспринято, как очередные новомодные идеи, однако, в эту категорию уже попадают многие гаджеты, которые все активнее и незаметнее проникают в нашу ежедневную жизнь ( например, "умные термостаты"...)

Если говорить об итогах Международной выставки потребительской электроники в 2015 году, то можно отметить про огромную важность организации цикла информационной обратной связи — от наших продуктов к нам(их потребителям).

Сегодня совершается важный переход: из создателей в потребителей и истинных владельцев своих персональных данных.

На данный момент остро стоит вопрос: как компаниям анализировать и применять все собираемые ими данные для создания лучшего, индивидуального обслуживания

клиентов? А что, если бы потребители согласились поделиться собранными данными, чтобы улучшить свой опыт и впечатления от общения с брендом?

Сегодня малые данные (находящиеся в собственности своих владельцев)

все активнее конкурируют с большими (принадлежащими брендам). И главной задачей является их интегрирование.

Поскольку малые данные чаще всего разгруппированы, то потребителям

будет принадлежать все больше новых наборов данных, ими же формируемых, и создаваться эти разнообразные вариации будут с помощью, казалось

бы, довольно нелепых продуктов вроде подключенного к Wi-Fi чайника

или браслета, отслеживающего настроение.

Если бы компаниям легко удавалось убедить потребителей делиться подобными данными, они могли бы использовать эти полномочия для расширения баз данных и создания невероятных рекламных акций и продуктов, максимально учитывающих индивидуальные запросы каждого потребителя, но здесь речь идет скорее не о продуктах, а о нюансах, которые люди позволяют собирать.

Consumer Electronics Show. Consumer Electronics Show — старейшая ежегодная выставка потребительской электроники.

Первая выставка CES прошла в июне 1967 года в Нью-Йорке.С 1978 по 1994 год, CES проводился дважды в год: в январе в Лас-Вегасе как Winter Consumer Electronics Show (WCES) и в июне в Чикаго, штат Иллинойс (США) как Summer Consumer Electronics Show (SCES).

Начиная с 1995 года выставка проводится в Лас-Вегасе.

В 2014 году выставка прошла с 7 по 10 января.

Шестого января 2015 прошла очередная выставка Consumer Electronics Show.

Японцы представили интересный комплект, который позволяет превратить любые очки в умные. Система состоит из двух частей: проекционного дисплея, с разрешением 640*400 точек, и управляющего блока, с собственным ARM-процессором, сенсором, беспроводными модулями и прочими компонентами.

Китайская компания Lenovo представила гибридный девайс, совмещающий функции умных часов и фитнес-трекера. Отличием от других подобных гаджетов является наличие e-ink дисплея.

По словам разработчиков, при обновлении изображения на экране примерно раз в 10 минут, энергии хватит на 2 дня работы девайса. Благодаря наличию сенсоров и датчиков, гаджет считает шаги, пройденное расстояние, калории и оценивает качество сна.

Наушники Smart B-Trainer позволят вам во время тренировок не таскать с собой смартфон. Они будут включать в себя музыкальный плеер, фитнес-трекер и GPS-навигатор. Кстати, они даже будут подбадривать вас во время пробежек.

На сцене появился президент Sony Electronics USA Майк Фасуло, который рассказал про удивительное разрешение 4К. Новые модели 4К-телевизоров Sony будут представлены в выставочных будках компании, где с ними смогут ознакомиться все желающие. Удивителен тот факт, что в самом тонком месте толщина этих телевизоров составляет всего 0,5 сантиметра. А рамка вокруг изображения стала такой тонкой, что её практически не видно.

Компания также представила новый формат кодирования звука, который получил название LDAC.

Все это примеры так называемого интернета вещей, в котором обиходные предметы, будучи объединенными, собирают разные данные.

Анализ малых данных. Инновационные гаджеты, сверхтехнологичные бытовые приборы собирают данные о своих потребителях. Эти данные могут использоваться компаниями для улучшения качества продукции. Казалось бы, отличный способ. Однако, далеко не все пользователи согласны делиться персональными данными об использовании того или иного продукта. В качестве примера возьмем знакомую многим пользователям компьютера ситуацию: во время установки какого-либо обновления, или же во время привычной работы за компьютером, всплывает окно с просьбой разрешить отправлять данные об использовании Вами продукта компании, его производящей (например, Майкрософт). Одни пользователи нажимают «ОК» даже не прочитав всё содержимое окна (скорее всего, они используют компьютер исключительно в развлекательных целях, поэтому не боятся распространения их персональной информации (данные об использовании собственности человека вполне правомерно относить к «персональной» информации). Другие пользователи, например те, чья работа, информация о бюджете ведется и хранится на компьютере, вряд ли согласятся на отправку данных. Мало кто прочитает пользовательское соглашение, в котором, конечно, прописано, что компания собирает лишь малую часть данных о том, как часто используется та, или иная функция, как часто возникают ошибки в работе и другую, более общую, нежели персональные данные, вносимые пользователем, информацию. В настоящее время количество, так называемых, хакеров и их возможностей превосходит все представления обычного человека. Поэтому, неудивительно, что даже прочитав всякого рода соглашения, пользователь может просто не поверить в подлинность написанного. Так как же тогда производителям собирать необходимые им для улучшения качества продукции данные? Для этого разработано множество способов анализа малых данных.

Анализ малых данных строится на алгоритмах. Рассмотрим два самых распространенных.

Случайный лес.

Случайный лес — один из самых потрясающих алгоритмов машинного обучения, придуманные Лео Брейманом и Адель Катлер ещё в прошлом веке. Он дошёл до нас в «первозданном виде» и является одним из немногих универсальных алгоритмов, универсальность которого заключается во многом: а) он хорош во многих задачах;b) есть случайные леса для решения задач классификации, регрессии, кластеризации, поиска аномалий, селекции признаков и т.д.RF (random forest) — это множество решающих деревьев. В задаче регрессии их ответы усредняются, в задаче классификации принимается решение голосованием по большинству. Все деревья строятся независимо по следующей схеме:1)выбирается подвыборка обучающей выборки размера,например samplesize– по ней строится дерево (для каждого дерева — своя подвыборка).2)для построения каждого расщепления в дереве просматриваем max_features случайных признаков (для каждого нового расщепления — свои случайные признаки).3)выбираем наилучшие признак и расщепление по нему (по заранее заданному критерию). Дерево строится, как правило, до исчерпания выборки (пока в листьях не останутся представители только одного класса), но в современных реализациях есть параметры, которые ограничивают высоту дерева, число объектов в листьях и число объектов в подвыборке, при котором проводится расщепление.
Понятно, что такая схема построения соответствует главному принципу ансамблирования (построению алгоритма машинного обучения на базе нескольких, в данном случае решающих деревьев): базовые алгоритмы должны быть хорошими и разнообразными (поэтому каждое дерево строится на своей обучающей выборке и при выборе расщеплений есть элемент случайности). Основные параметры алгоритма:
1) Число деревтев- n_estimator, при этом чем их больше , тем лучше качество, но время настройки и работы RF также пропорционально увеличиваются.
2)Число признаков для выбора расщепления — max_features. При увеличении max_features увеличивается время построения леса, а деревья становятся «более однообразными». По умолчанию он равен sqrt(n) в задачах классификации и n/3 в задачах регрессии.
3) Минимальное число объектов, при котором выполняется расщепление — min_samples_split. Этот параметр, как правило, не очень важный и можно оставить значение по умолчанию, но при его увеличении качество на обучении падает, а время построения RF сокращается.
4) Ограничение на число объектов в листьях — min_samples_leaf. Также можно оставить значение по умолчанию.
5)Максимальная глубина деревьев — max_depth. Ясно, что чем меньше глубина, тем быстрее строится и работает RF. При увеличении глубины резко возрастает качество RF. Рекомендуется использовать максимальную глубину (кроме случаев, когда объектов слишком много и получаются очень глубокие деревья, построение которых занимает значительное время). При использовании неглубоких деревьев изменение параметров, связанных с ограничением числа объектов в листе и для деления, не приводит к значимому эффекту (листья и так получаются «большими»). Неглубокие деревья рекомендуют использовать в задачах с большим числом шумовых объектов (выбросов).
6) Критерий расщепления — criterion. По смыслу это очень важный параметр, но по факту здесь нет вариантов выбора. В библиотеке sklearn для регрессии реализованы два критерия: “mse” и “mae”, соответствуют функциям ошибки, которые они минимизируют. В большинстве задач используется mse. Для классификации реализованы критерии “gini” и “entropy”, которые соответствуют классическим критериям расщепления: Джини и энтропийному. Простой перебор поможет Вам выбрать, что использовать в конкретной задаче (в авторской реализации алгоритма использовался Джини).
Питон.

Сейчас практически все, кто занимается анализом малых данных, делают это с помощью Питона.Собственно, ситуация здесь примерно как с фотографией. Раньше ей занимались единицы, поскольку надо было ехать в специализированные магазины, мешать закрепители и проявители, проявлять по ночам и т.п. Сейчас любой может купить фотоаппарат практически любого уровня, нажать на кнопку и тут же увидеть фотографию. Так и в анализе данных: раньше им занимались лишь специалисты, теперь порог вхождения минимален, машинным обучением можно «баловаться», не особо понимая, а что находится внутри «чёрных ящиков».Но тем не менее, программировать на Питоне надо уметь."Питон" или "пайтон" назван в честь комедийных серий BBC "Летающий цирк Монти-Пайтона ". Создателем является Гвидо ван Россум в 1991 году.Особенности : 1) интерпретируемый 2)объектно-ориентированный 3)высокоуровневый язык 4)высокоуровневые структуры данных5)синтаксис прост в обучении 6)поддержка модулей и пакетов ( большинство библиотек бесплатны)7)универсальный
8)интеграция с другими языками
Основные параметры/функции алгоритма;
1) for - цикл
2) range -итератор
3)+-конкатенация строк
4) continue/break
5)сокращенные операции работая с числами (+=; -=; *=; /=)
6) функциональное программирование- вычисление значений математических функций , а не последовательность процедур. Существует функция первого класса/высшего порядка (принимает другие функции в качестве аргументов или возвращают другие функции). Рекурсия - основная управляющая структура в программе ( нет цикла- он реализован через рекрусию). Описываем математическую зависимость: данные-цель.
Питон-язык с элементами функционального стиля.

Важность малых данных.

Почему это важно?

В настоящее время все больше людей из-за появления новых, продвинутых электронных устройств, подключаемых к глобальной сети-интернет, фиксируют о себе буквально все. Данные, владельцем которых является потребитель, все увереннее соперничают с данными, чьи собственники — бренды. Поэтому можно предположить , что каждая компания в скором времени непременно столкнется с вопросом: захотят ли потребители делиться с ними своими данными? Сам термин «малые данные» появился в последние несколько лет с целью описания огромного значения данных, позволяющих владеющим ими людям действовать сию минуту — в отличие от более обширных, сложных массивов данных, собираемых в течение долгого времени и пригодных для решения перспективных задач.

Со временем право собственности на данные и способы обмена ими с целью проведения немедленных действий с учетом содержащейся в них информации станет главным критерием для оценки, несут ли данные новые идеи, имеют ли они реальную ценность или представляют собой хранящиеся на огромных серверах и в обширных базах медленно, но верно устаревающие сведения.

Для кого это важно?

Если конгломерат огромных массив данных происходит за счет крупных брендов или государственных учреждений, то малые данные — это личное достояние каждого из нас. Главное для нас — научиться правильно подходить к сбору и анализу только тех данных, которые действительно имеют значение, а затем находить новые способы действовать на основе персональных данных своих потребителей — если они, конечно, согласятся поделиться такими сведениями

Что следует сделать? 1)Предлагайте потребителям использовать данные, владельцами которых они и являются, так как потребитель собирает собственные данные, к которым компании и бренды технически не имеют доступа, но это

не означает, что из этих данных нельзя им извлечь пользу. Например,

владелец спортивного магазина или магазина товаров для фитнеса

может просить покупателей предоставлять ему распечатки некоторых

сведений о состоянии их здоровья, чтобы помочь им выбрать лучшие

продукты.

2)Следите за новыми популярными продуктами. Например, если многие люди устанавливают в своих домах «умные» термостаты вроде Nest, пожалуй, стоит затеять разговор об экономии энергоресурсов. Если ваша компания работает в этой сфере, широкое распространение продуктов данного типа откроет перед ней огромные возможности. А может, на подходе и другие продукты, которые способны сильно повлиять на вашу отрасль?

Чтобы узнать об этом, необходимо внимательно наблюдать за всем,

что появляется на рынке и завоевывает популярность.

Вывод. На сегодняшний день каждый из нас генерирует все больше персональных данных, чем раньше, благодаря развитию техники.

Обработка персональных данных становится не просто обыденной процедурой, которую необходимо пройти для галочки, а сложной системой, направленной на улучшение качества гаджетов и обслуживание самого клиента.

Поэтому каждому стоит задуматься о том какую пользу могут принести персональные данные человека или отзывы и сообщения о приложениях или ошибках различных программ.

Терминология.

1. Тенденция - Направление развития, склонность, стремление

2. Анализ - Метод научного исследования путём рассмотрения отдельных сторон, свойств, составных частей чего-нибудь

3. Пользователь - лицо или организация, которое использует действующую систему для выполнения конкретной функции.

4. Интегра́ция (от лат. integratio — «соединение») - процесс объединения частей в целое.

5. Инновационные технологии - технологии дальнейшего развития общества, появляющиеся на каждом новом витке эволюционного развития человечества в связи с прорывом в области научных знаний или возникающие из потребностей общества, требующих инновационного сдвига

6. Персональные данные - это любая информация, относящаяся к определенному или определяемому на основании такой информации физическому лицу (субъекту персональных данных), в том числе его фамилия, имя, отчество, год, месяц, дата и место рождения, адрес, семейное, социальное, имущественное положение, образование, профессия .

Цифровой ресурс

Рабочая версия текста

Источники информации

Доска задач

Доска задач группы 12

Визуализация

Текст выступления

Список группы: Орлова Елизавета, Мария Шадрина, Софья Стрижкова.

Page updated

Report abuse