WLM 2023
Программа
Аннотация
Анализ данных — критически важная область для исследователя как в науке, так и в индустрии. Но в привычных университетских курсах встречается ряд проблем. Это и непоследовательность изложения материала, и недостаточное внимание к математической составляющей, и слабое фундирование математических концепций в предметном материале исследовательской области. Все эти проблемы автор постарался решить в данном курсе.
Наш курс назван «WLM 2023» — сокращение от «World of Linear Models». Подавляющее большинство существующих методов анализа данных основаны на линейных моделях, поэтому им мы уделим основное внимание в нашем курсе. И все же аналитика невозможна без хорошего знания специального программного обеспечения и математической статистики. Поэтому в данном курсе мы начнем с самого начала. Всего нас ждет 15 лекций и 33 практических занятия, в ходе которых, начав с освоения языка R как самого популярного в социальных науках и заложив некоторый математический фундамент, мы изучим самые важные темы математической статистики и последовательно будем двигаться в бескрайнем океане линейных моделей. Мы не сможем освоить всё — это факт. Однако в ходе курса вы получите необходимые и достаточные знания для того, чтобы свободно ориентироваться в анализе данных научных исследований. Кроме того, опираясь на полученные знания, вы сможете далее самостоятельно расширять их в сторону, например, машинного обучения и других методов, активно используемых в индустрии.
Нас ждем много теории и много практики, ведь научиться анализу данных можно только анализируя данные. Курс главным образом нацелен на исследователей в области психологии и смежных социальных и гуманитарных наук, однако освоение рассматриваемых в курсе методов будет полезно исследователям широкого круга специальностей, поэтому мы не ставим ограничений по профилю и уровню знаний.
Ждём ваших заявок!
Тематический план
R
Основы R
Установка R и RStudio.
Организация рабочего пространства. Рабочая директория. Projects.
Интерфейс. Console, Code Editor, Terminal, Environment, Plots, Files, Help, Viewer.
R как язык программирования. Команды. Математические операторы и функции. Общая идея функции.
Переменные и объекты. Служебные операторы. Логические операторы.
Типы данных
Типы данных языка R. Numeric, integer, character, logical, factor.
Операции над данными разных типов. Функции class() и typeof(). Функции is.*(). Приведение типов. Правила приведения типов. Функции as.*().
Специальные литералы. NA, NaN, NULL.
Структуры данных
Векторы. Создание векторов. Индексация векторов. Операции над векторами. Концепция векторизации. Recycling. Генерация числовых последовательностей.
Матрицы. Создание матриц. Индексация матриц. Операция над матрицами.
Списки. Создание списков. Индексация списков. Операции над списками. Функция str().
Датафреймы. Создание датафреймов. Структура датафреймов. Индексация датафреймов. Функция str(). Функция View().
Функции
Общая идея функции. Имя функции. Вызов функции. Аргументы функции. Возвращаемый объект.
Собственные функции. Создание функций. Тело функции. return(). Открытый исходный код.
Управляющие конструкции. Условный оператор. Цикл for.
Элементы функционального программирования. Семейство функций apply. Пакет purrr. Функция map().
Работа с данными
Организация рабочего пространства. Директория. Папки и файлы. Рабочая директория. Projects. Работа в проектах.
Импорт данных. Форматы файлов данных. Стандартные форматы записи данных. Текстовые форматы: CSV, TSV, TXT. Табличные форматы: XLS, XLSX. Форматы данных с особой разметкой: XLM, JSON. Файлы данных других статистических программ.
Кодировка. Локаль.
Первичное исследование данных. Изучение структуры и типов данных. Поиск аномалий.
Исследование данных средствами базового R. Функции head(), tail(), str(), summary(), table(), unique(), sort(). Семейство функций apply().
Предобработка данных
Концепция Tidy Data. Смысл и плюсы «опрятных» данных. Принципы организации «опрятных» данных.
Семейство пакетов tidyverse. Импорт данных: read_csv(), read_csv2()
Переименование переменных (колонок): rename(), rename_with().
Фильтрация данных. Фильтрация по строкам: filter(), slice().
Фильтрация данных. Фильтрация по колонкам: select(), setect_*(). tidyselect.
Сортировка данных: arrange(), desc(), distinct()
Создание и изменение переменных: mutate(), ifelse(), recode().
Группировка и агрегация данных: group_by(), summarize(), ungroup(), n(), count()
Объединение датасетов. Объединение по строкам и по колонкам: bind_cols() и bind_rows()
Объединение датасетов. Объединение по ключу. Способы объединения по ключу: left_join(), right_join(), inner_join(), full_join(), anti_join(). Объединение по ключу как операции для множествами.
Широкий и длинный форматы данных. Преобразование между широким и длинным форматами: pivot_longer() и pivot_wider().
Строки. Операции над строками. Пакеты stringr и stringi.
Регулярные выражения.
Дата и время. Особенности работы со временем.
Тип данных datetime и его особенности: форматы даты и времени, часовые пояса.
Пакет lubridate. Обработка дат и времени. Математические операции с датами и временем.
Визуализация данных
Зачем нужна визуализация. Разведочные визуализации. Визуализации результатов статистических методов.
Основные виды графиков. Bar plot, histogram, density plot. Dot plot. Boxplot, violin plot, error bar. Line plot. Scatter plot. Corrplot. Комбинации графиков.
Good & Bad practices в визуализации. Pie chart и редкие виды графиков.
Основные ошибки в визуализации данных. Принципы оформления графиков.
Философия A Layered Grammar of Graphics. Пакет ggplot2 и его возможности.
Визуализация в базовом R. Основные виды графиков в базовом R. Настройки отображения элементов. Добавление слоев. Параметры отображения графиков.
Пакет ggplot2. Философия A Layered Grammar of Graphics. Базовый слой. Разметка осей. Эстетики.
Геомы. Группировка по переменной. Фасеты.
Встроенная статистическая обработка. Статы.
Настройка графика. Темы. Шаблоны. Кастомизация шкал.
Экспорт графиков.
Математика для анализа данных
Дискретная математика
Теория множеств. Множества. Операции над множествами.
Отображения.
Элементы комбинаторики. Перестановки, сочетания, размещения: с повторениями и без повторений.
Алгебра логики. Атомарные высказывания. Инверсия, конъюнкция, дизъюнкция, XOR. Закоды де Мограна.
Импликация, репликация, эквиваленция.
Математический анализ
Последовательности. Сходимость последовательностей. Предел последовательностей.
Функции. Дискретные функции. Непрерывные функции. Обратная функция.
Производная. Дифференцируемость функции. Определение производной. Смысл производной. Функции нескольких переменных. Частная производная.
Интеграл. Неопределенный интеграл. Определенный интеграл. Площадь под графиком функции.
Линейная алгебра
Системы линейных алгебраических уравнений. Линейные уравнения. Системы уравнений. Матричная запись систем линейных алгебраических уравнений.
Векторы. Сложение векторов. Умножение вектора на число. Скалярное произведение. Линейная комбинация.
Матрицы. Сложение матриц. Умножение матрицы на число. Матричное произведение. Детерминант матрицы. Обратная матрица.
Теория измерений
Измерение
Измерение в социальных науках. Психофизиологические, психофизические, поведенческие и психометрические измерения.
Шкалы. Свойства шкал. Допустимые операции на различных шкалах. Переход между шкалами.
Роль типа шкалы в статистическом анализе.
Психометрические измерения
Особенности психометрического измерения. Концепт и конструкт.
Операционализация. Тестовые задания. Области содержания.
Структура опросника. Виды шкал в психометрических инструментах.
Психометрические характеристики шкалы. Надежность, внутренняя согласованность.
Психометрические характеристики пунктов. Трудность и различительная способность (дискриминативность).
Валидность. Виды валидности. Эмпирическая валидность. Факторная валидность.
Теория вероятности и математическая статистика
Введение в математическую статистику
Генеральная совокупность. Объем совокупности.
Выборка. Объем выборки. Способы формирования репрезентативной выборки.
Неопределенность и вариативность статистических данных. Параметры и выборочные характеристики. Виды статистических данных.
Случайный эксперимент
События. Пространство элементарных событий. Операции над событиями.
Вероятность. Классическое определение вероятности. Относительная частота реализации эксперимента. Сложение и умножение вероятностей. Статистическое определение вероятности.
Условная вероятность. Теорема Байеса.
Случайные величины
Случайная величина как способ описания случайного эксперимента. Распределение случайной величины.
Дискретные случайные величины. PMF. CDF.
Непрерывные случайные величины. PDF, CDF.
Характеристики распределения случайной величины. Момент случайной величины. Математическое ожидание, дисперсия, коэффициент асимметрии, коэффициент эксцесса.
Сравнение случайных величин. Роль математического ожидания и дисперсии.
Стандартизация. Центрирование и нормирование. Стандартные шкалы.
Оценивание статистических параметров
Точечные оценки. Метод моментов. Закон больших чисел и центральная предельная теорема. Сходимость по вероятности. Сходимость по распределению.
Свойства точечных оценок: несмещенность, состоятельность и асимптотическая несмещенность, эффективность. Степени свободы.
Интервальные оценки. Стандартная ошибка. Расчет стандартной ошибки среднего. Интерпретация стандартной ошибки среднего.
Доверительный интервал. Построение доверительного интервала для среднего. Интерпретация доверительного интервала.
Bootstrap. Идея подхода.
Точечные оценки с помощью bootstrap.
Интервальные оценки с помощью bootstrap.
Тестирование статистических гипотез
Гипотезы. Теоретические гипотезы. Эмпирические гипотезы. Статистические гипотезы. Нулевая и альтернативная гипотезы.
Подходы к тестированию статистических гипотез. Фреквентистский подход. Байесовский подход.
Результаты проверки статистических гипотез. Критерий и статистика.
Асимметрия статистического вывода.
Ошибка первого рода. Уровень значимости. Критическая область. p-значение.
Распределение p-значения при справедливости нулевой и альтернативной гипотез.
Ошибка второго рода. Статистическая мощность. Размер эффекта.
Связь ошибок первого и второго рода.
Алгоритм тестирования статистических гипотез. Проблема множественных сравнений. Проблема количества статистических тестов.
Ложноположительные результаты
Научное знание и его производство. Публикационный цикл.
Воспроизводимость исследований. Воспроизводимость и реплицируемость. Кризис воспроизводимости. Причины кризиса воспроизводимости.
Good, Bad & Questionable Research Practices. «Степени свободы» исследователя.
Вероятность ложноположительного вывода в ходе проведения исследования.
Открытая наука. Пререгистрация исследований.
Анализ данных
Описательные статистики
Задачи описательной статистики
Меры центральной тенденции. Мода. Мода дискретной переменной. Мода непрерывной переменной.
Медиана.
Среднее: арифметическое, геометрические, квадратичное, гармоническое.
Взвешенное среднее.
Форма распределения и меры центральной тенденции.
Меры разброса. Минимум, максимум, размах.
Среднее абсолютное отклонение.
Дисперсия. Среднее квадратичное отклонение.
Квантили. Квартили, процентили.
Статистические выбросы.
Форма распределения. Коэффициент асимметрии и коэффициент эксцесса.
Корреляционный анализ
Меры взаимосвязи признаков. Ковариация. Корреляция. Линейность взаимосвязи.
Коэффициент корреляции Пирсона. Расчет коэффициента корреляции.
Интерпретация коэффициента корреляции.
Проверка статистической значимости коэффициента.
Оформление статистических результатов.
Коэффициенты корреляции для ранговых шкал. Коэффициент корреляции Спирмена. Коэффициент корреляции Кендалла. Оформление статистических результатов.
Коэффициенты корреляции для категориальных шкал. Бисериальный коэффициент корреляции.
Рангово-бисериальный коэффициент корреляции.
φ-коэффициент. Критерий независимости χ² Пирсона.
Связи между несколькими переменными. Корреляционная матрица. Визуализация корреляций.
Коэффициент множественной корреляции. Частные корреляции.
Общие линейные модели. Простая линейная регрессия
Ограничения корреляционного анализа. Необходимость построения линейной регрессионной модели.
Понятие линейной модели. Идея регрессионной модели. Формализация модели.
Математическая модель простой линейной регрессии. Intercept и slope.
Идентификация модели. Метод наименьших квадратов. Матричное вычисление коэффициентов.
Тестирование качества модели. F-статистика. Коэффициент детерминации. Интерпретация результатов.
Метрики качества модели. MSE, MAE. RMSE, MAPE. Интерпретация значений метрик.
Тестирование значимости предикторов. t-тест. Интерпретация результатов.
Оформление результатов.
Проверка допущений линейной регрессии. Линейность связи, независимость наблюдений, нормальной распределение остатков, гомоскедастичность остатков. Влиятельные наблюдения и выбросы.
Предсказания на основе модели. Доверительная зона регрессии для предсказаний.
Интерполяция и экстраполяция.
Множественная линейная регрессия
Ограничения простой линейной регрессии.
Множественная линейная регрессия с количественными предикторами без взаимодействия. Формализация модели.
Идентификация модели. Метод наименьших квадратов. Матричное вычисление коэффициентов. Идентичность вычисления коэффициентов для простой и множественной линейной регрессии.
Тестирование качества модели. F-статистика. Коэффициент детерминации.
Скорректированный коэффициент детерминации. Метрики качества модели.
Категориальные предикторы. Dummy-переменные.
Множественная линейная регрессия с количественными и категориальными предикторами без взаимодействия. Формализация модели.
Идентификация модели. Построение матрицы предикторов.
Базовый уровень и поправочный коэффициент. Интепретация результатов.
Множественная линейная регрессия с количественными и категориальными предикторами со взаимодействием. Формализация модели.
Идентификация модели. Построение матрицы предикторов для модели со взаимодействием предикторов.
Интерпретация взаимодействия количественного и категориального предикторов.
Множественная линейная регрессия со взаимодействием количественных предикторов. Формализация модели.
Интерпретация взаимодействия количественных предикторов.
Оформление статистических результатов.
Сравнение моделей. Частный F-критерий. I и II типы сумм квадратов. Интерпретация результатов. Оформление статистических результатов.
Проверка допущений линейной регрессии. Линейность связи, независимость наблюдений, нормальное распределение остатков, гомоскедастичность остатков. Влиятельные наблюдения и выбросы.
Проблема мультиколлинеарности. Коэффициент вздутия дисперсии. Идея снижения размерности признакового пространства.
Дисперсионный анализ
Задачи дисперсионного анализа. Дизайн экспериментального исследования и анализ данных.
Формализация модели. Дисперсионный анализ и линейные модели. Регрессия только с категориальными предикторами.
Параметризация индикаторов и параметризация эффектов. Смысл коэффициентов в обоих способах параметризации.
Однофакторный дисперсионный анализ. Структура дисперсии данных. Внутригрупповая и межгрупповая изменчивость.
F-статистика. Post hoc тесты.
Оформление статистических результатов.
Многофакторный дисперсионный анализ. Структура дисперсии данных. Взаимодействие факторов.
Различия в параметризации индикаторов и параметризации эффектов.
Post hoc тесты в многофакторном дисперсионной анализе.
Оформление статистических результатов.
Контрасты. Вариативность структуры изменчивости данных с точки зрения эмпирических гипотез и дизайна исследования.
Сравнение отдельных групп внутри дисперсионного анализа.
Несбалансированные данные. III тип сумм квадратов.
Дисперсионный анализ с повторными измерениями. Структура дисперсии данных при repeated measures дизайне.
Ограничения дисперсионного анализа.
Ковариационный анализ
Ковариаты. Учет влияния дополнительных переменных.
Ковариационный анализ как частный случай общих линейных моделей. Идентификация модели.
Диагностика модели. Тестирование значимости предикторов.
Визуализация модели. Оформление статистических результатов.
Обобщенные линейные модели. Логистическая регрессия
Ограничения общих линейных моделей
Идея обобщенных линейных моделей. Модели для разных типов данных зависимой переменной. Функция связи и обратная функция.
Бинарные переменные и биномиальное распределение.
Биномиальная регрессия. Формализация модели. Математическая модель логистической регрессии.
Логистическая кривая.
Шансы и логиты. Logit-преобразование.
Идентификация модели. Метод максимального правдоподобия. Отсутствие аналитического решения задачи вычисления коэффициентов модели.
Тестирование качества модели. Девианса. Анализ девиансы.
Информационные критерии.
Проверка на сверхдисперсию.
Тестирование значимости предикторов. z-тест Вальда. Тесты отношения правдоподобий.
Интерпретация коэффициентов модели.
Оформление статистических результатов.
Предсказательная сила модели. Метрики качества модели. Accuracy, precision, recall, F1-мера, ROC-AUC.
Мультиномиальная регрессия.
Порядковая регрессия.
Пуассоновская регрессия
Счетные данные. Распределение Пуассона.
Опасности моделирования счетных величин общими линейными моделями.
Пуассоновская регрессия. Формализация модели. Математическая модель пуассоновской регрессии.
Идентификация модели. Тестирование качества модели. Анализ девиансы.
Проверка допущений модели. Избыточность дисперсии.
Оформление статистических результатов.
Квази-пуассоновские модели. Особенности работы с квази-пуассоновскими моделями.
Регуляризация регрессии
Формализация модели. Штраф суммы квадратов остатков как способ борьбы с эффектами мультиколлинеарности. Варианты штрафа суммы квадратов остатков. Ridge-регрессия. LASSO-регрессия. Метод эластичной сети.
Особенности работы с регуляризованной регрессией. Штрафной коэффициент. Невозможность построения доверительных интервалов и проверки статистических гипотез.
Предсказания с помощью регуляризованной регрессии.
Обобщенные аддитивные модели
Формализация модели. Полиномиальная регрессия. Сплайны. Функция связи. Математическая модель GAM.
Идентификация модели. MARS.
Тестирование качества модели и тестирование значимости предикторов. Особенности работы с GAM. Оформление статистических результатов.
Предсказательная сила модели.
Смешанные линейные модели
Формализация модели. Ограничения линейных моделей с фиксированными предикторами. Случайные и фиксированные факторы. Идея GLMM. Виды GLMM. Математическая модель GLMM.
Идентификация модели. ML и REML.
Тестирование качества модели. Индуцированные корреляции. Анализ остатков. Информационные критерии. Оформление статистических результатов.
Тестирование значимости предикторов. Тесты Вальда. Тесты отношения правдоподобий. Оформление статистических результатов.
Предсказания с помощью моделей со смешанными эффектами. Групповые предсказания. Индивидуальные предсказания.
Моделирование структуры дисперсии в смешанных моделях. Смешанные модели для бинарных данных.
Кластерный анализ
Задача кластеризации. Геометрическая интерпретация задачи кластеризации. Расстояние между объектами. Проблема операционализации расстояния.
Иерархическая кластеризация. Алгоритм иерархического кластерного анализа. Дендрограмма. Определение числа кластеров. Ограничения иерархического кластерного анализа. Оформление статистических результатов.
Метод k-средних. Алгоритм метода k-средних. Определение числа кластеров. Типы кластеров: ленточные кластеры и облачные скопления. Оформление статистических результатов.
Нечеткий кластерный анализ. Идея нечеткой кластеризации. Метод C-средних. Использование результатов нечеткой кластеризации в других методах статистического анализа.
Субъективность кластерного анализа. Интерпретация результатов кластерного анализа. Метрики качества кластеризации. Внешние метрики оценки качества. Внутренние метрики оценки качества.
Анализ главных компонент
Задачи анализа главных компонент. Проклятие размерности.
Идея метода главных компонент. Главные компоненты. Корреляция и PCA.
Формализация модели PCA. Математическая модель PCA. Графическое представление.
Свойства главных компонент. Распределение дисперсии данных между главными компонентами.
Идентификация модели. Интерпретация результатов. Выводы на основе анализа.
Визуализация результатов. Биплот.
Особенности и ограничения PCA. Использование PCA перед регрессией.
Оформление статистических результатов
Эксплораторный факторный анализ
Задачи эксплораторного факторного анализа.
Формализация модели EFA. Отличия EFA от PCA. Отличия EFA о CFA. Математическая модель EFA.
Факторы. Факторные нагрузки. Уникальности.
Вращение факторов.
Подходы к определению количества факторов.
Идентификация модели. Критерий сферичности Бартлета. Мера Кайзера–Мейера–Олкина.
Интерпретация результатов. Подходы к интерпретации результатов EFA.
Оформление статистических результатов.
Конфирматорный факторный анализ
Формализация модели. Общее представление о структурном моделировании. Наблюдаемые и латентные переменные. Измерения, регрессии и корреляции. Факторные нагрузки. Математическая модель CFA.
Идентификация модели. Пакет lavaan. Особенности синтаксиса.
Оценка качества модели. Метрики качества модели. CFI, TLI, SRMR, RMSEA. Индексы модификации.
Интерпретация результатов. Значимость факторных нагрузок. Фиктивные факторы. оформление статистических результатов.