Анализ даннных (весна, 2021)

Материалы лекционных занятий

Лекция 1. Введение в курс.
Лекция 2. Линейная регрессия: видео, доска. Качество видеолекций хромает. Звук не очень, доска плохо различима - будем работать над улучшением. Просьба их никуда не выкладывать.
Лекция 3. Переобучение: видео, доска. Видео лучше не стало, но я потестил разные варианты и в следующий раз должно получиться.
Лекция 4. Доска.
- Геометрическая интерпретация метода наименьших квадратов.
- Сингулярное разложение матриц:
Лекция 5. Доска.
- Проблема мультиколлинеарности признаков.
- Разложение ошибки на смещение и дисперсию.
Лекция 6. Методы классификации, логистическая регрессия: доска.
Лекция 7 (2020-03-25). Класификаторы с максимальным зазором: ноутбук.
Лекция 8 (2020-04-01). Спрямляющие пространства: ноутбук.
Лекция 8 (2020-04-08). Нейронные сети, обратное распространение ошибки, граф вычислений.
Лекция 9 (2020-04-15).
- Деревья решений.
- Введение в композиции алгоритмов. Случайный лес.
Лекция 10 (2020-04-22). Бустинг, адаптивный бустинг, градиентный бустинг над деревьями.
Лекция 11 (2020-04-29). Глубокое обучение. Сверточные нейронные сети для обработки изображений.
Лекция 12 (2020-05-06). Глубокое обучение. Основы работы с текстом.
Лекция 13 (2020-05-13). Глубокое обучение. Продвинутые методы работы с текстом.

Практические задания

Общие правила

3 лабораторных работы:
- Исследование линейных методов восстановления регрессии, срок сдачи - 26.03.2021;
- Исследование методов классификации разнородных данных, срок сдачи - 30.04.2021;
- Исследование методов обработки текста, срок сдачи - 21.05.2021.
Каждая лабораторная работа включает обязательную часть, уникальную для каждого студента, и необязательную часть, общую для всех.
Обязательная часть каждой лабораторной работы оценивается максимум в 20 баллов (т.е. суммарно за лабы можно получить до 60 баллов). Условие получения 20 баллов - сдача работы в срок.
Необязательная часть лабораторных является конкурсной. За попадание в топ-3 решений по каждой лабораторной можно получить бонусные 15 баллов (т.е. суммарно за конкурсную часть можно получить до 45 баллов). Результаты конкурсной части будут зафиксированы в конце семестра (на последнем занятии), после этого будут распределены бонусные баллы.
Также, по каждой ЛР есть опциональные задания повышенной сложности. За выполнение задания повышенной сложности можно получить до 10 баллов (т.е. суммарно за задания повышенной сложности можно получить до 30 баллов).

Порядок сдачи

Прислать мне на почту (anton.veselov at gmail.com) файл с предсказаниями для тестовой выборки. Названия файлов для сохранения результатов (результаты будут проверяться один раз в неделю в воскресенье (в районе 8-9 вечера), формат файла с предсказаниями на тестовой выборке должен совпадать с форматом меток из тренировочных данных):
- для обязательной части: lab1.csv, lab2.csv, lab3.csv;
- для конкурсной части: lab1_challenge.csv, lab2_challenge.csv, lab3_challenge.csv;
- для заданий повышенной слохности: lab1_star.csv, lab2_star.csv, lab3_star.csv.
Защитить код/ответить на вопросы на паре.
Убедиться, что я отметил Вас в таблице.

Содержание отчета

Титульный лист.
Постановка задачи.
Описание способа решения поставленной задачи (отбор признаков, визуализация данных, оценка обобщающей способности, борьба с переобучением и т.д.).
Результаты на Ваших данных и из таблицы.

!!! Дата сдачи - это дата, когда Вы защитили код, ответили на все вопросы, и я отметил дату в табличке. !!!

Экзамен

По результатам работы в семестре возможно получение автоматов:
- 85+ баллов - оценка "отлично";
- 70-84 баллов - оценка "хорошо";
- 55-69 баллов - оценка "удовлетворительно";
Допуск к экзамену: все 3 сданные лабораторные работы.

Лабораторная работа №1

В данной работе необходимо реализовать алгоритм градиентного спуска для решения задачи восстановления регрессии. Нельзя пользоваться готовыми библиотеками. Файлы с данными пронумерованы по вариантам. Необходимо обработать только свой вариант. Номер варианта совпадает с номером в списке группы.

Обязательная часть.

Данные.
Условие сдачи работы: значение коэффициента детерминации >99% на тестовой выборке.

При обучении необходимо воспользоваться отложенной выборкой для оценки обобщающей способности модели на новых данных.
Для успешного выполнения задания необходимо воспользоваться методами генерации новых признаков и избежать возможного переобучения.

Конкурсная часть.

Тренировочные данные:

Тестовые данные:

признаки.

Задание повышенной сложности.

Обучить многослойную нейронную сеть прямого распространения для задачи из ЛР №1 и достичь на ней коэффициента детерминации >99% без использования новых признаков.

Лабораторная работа №2

В данной работе необходимо реализовать алгоритм градиентного спуска для решения задачи классификации с помощью логистической регрессии. Нельзя пользоваться готовыми библиотеками. Файлы с данными пронумерованы по вариантам. Необходимо обработать только свой вариант. Номер варианта совпадает с номером в списке группы (столбец "вариант" в таблице с результатами).

Обязательная часть.

Данные.
Условие сдачи работы: точности классификации должна превысить значение в столбце "Порог2" (по номеру варианта).

При обучении необходимо воспользоваться отложенной выборкой для оценки обобщающей способности модели на новых данных.
Для успешного выполнения задания необходимо выполнить отбор значимых признаков.

Конкурсная часть.

Тренировочные данные:

Тестовые данные:

признаки.

Задание повышенной сложности.

Обучить многослойную нейронную сеть прямого распространения для задачи из ЛР №2 и достичь на ней точности классификации большей, чем при использовании логистической регрессии.

Лабораторная работа №3

В данной работе необходимо реализовать простейший классификатор текстовых данных. Нельзя пользоваться готовыми библиотеками. Файлы с данными пронумерованы по вариантам. Необходимо обработать только свой вариант. Номер варианта совпадает с номером в списке группы (столбец "вариант" в таблице с результатами).

Обязательная часть.

Данные.
Условие сдачи работы: точности классификации должна превысить значение в столбце "Порог3" (по номеру варианта).

При обучении необходимо воспользоваться отложенной выборкой для оценки обобщающей способности модели на новых данных.

Конкурсная часть.

Данные.

Задание повышенной сложности.

Обучить рекуррентную нейронную сеть для задачи из ЛР №3 и достичь на ней точности классификации большей, чем в обязательной части. При выполнении задания можно воспользоваться готовыми библиотеками для работы с нейронными сетями.

Google Sites

Report abuse

Анализ даннных (весна, 2021)

Материалы лекционных занятий

Практические задания

Общие правила

Порядок сдачи

Содержание отчета

Экзамен

Лабораторная работа №1

Лабораторная работа №2

Лабораторная работа №3

Результаты

Список тем курсовых проектов

Вопросы к экзамену