1. Для одинаково распределенных независимых случайных величин X1,...., Xm, в диапазоне [0,1]. Имеющих мат. ожидание, и оценку мат. ожидания соответственно:
Не зависимо от фактически вида распределения имеет место следуюшее неравенство: (Hoeffding's_inequality)
2. Статистику T(Xn) называют достаточной для параметра Teta, если условная функция распределения F(Xn; Teta|T(Xn)=t) не зависит от параметра Teta. Teta - это не случайная величина а параметры распределения.
Это означает, что значение t даёт полную информацию о параметре Teta. [Математическая Статистика, 76].
3. Для задания оптимальных параметров вероятностной модели на практике по обучающей выборке удобно использовать, одно из следующих пониманий функции правдопободия (по английски likelihood):
- conditional likelihood
- joint likelihood
4. Фильтр Лапласа (Laplase Smoothing). Имеются элементарный сценарий - два события A, B образующие полную группы событий. Рассматриваем дискретное множество элементарных исходов. Идея фильтра Лапласа в том, что для различных эвристических подходов в машинном обучении не получить неопределенность 0/0.
превращается в
Можно применить в алгоритме Naive Basyess Classifier при бинарной классификации текста. Чтобы избавиться от той неопределенности, которое появляется при том условии, что мы встречаем незнакомое нам слово из словаря.
5. Расчётная формула, для наивного Байесовксого классификатора (X1, X2, ...Xn) - вероятные независимые features, при условии что Y приняло конкретное значение (conditional independent). Расчётная формула взята из заметок к Стенфордским Лекциям по Машинному обучению (CS229)
6. Классификатор, использующий для классификации функцию logistic regresseion, она же sigmoid достаточно нормальное решение. Используемая функция является следствием достаточно большого количества примеров из
Generealized Linear Models:
x|y=1, x|y=0 -- Expotetntional Family распределения => функцию предсказания имеет вид logistic regression:
Так что эта функция взята не от балды.
7. Специалисты по машинному обучению предпочитают SVM, более чем нейронные сети (2008 год). У нейронных сетей - имеет место много локальных экстремумов. Для Linear Regression, Logistic Regression, Support Vector Machine - один локальных и глобальный минимум. К нейронным сетям больше вопросов, чем реальной пользы от них. Модель нейронных сетей сама по себе достаточно сложная для полноценного анализа.
8. Вроде как всегда верное неравенство max(min(...)) <= min(max(...)). Где соответственно поиск max ведётся по некоторым аргументам функции, и min ведётся по другим некоторым аргументам функции.
9. Иногда эти задачи оптимизации max(min(...)), min(max(...)) эквиваленты.
a. Пусть функция f - выпуклая. (Один из возможных критериев матрицца Гёссе положительна определена для функции f)
b. Ограничения h(x)=0 являются аффинными вида h(x)=w^t*x + b
c. Для системы ограничений типа неравенство g(x) < 0, существует точка x, которая удовлетворяет одновременно всем неравентсвам
=> решение задач max(min(..)) и min(max(...)) совпадает.
И при решении уравнения Лагранжа Larg(W, L, B) =f(w)+Summ(Li*Gi)+Summ(Bi*Hi)
Выйдет так, что (Li из решения)*Gi(x)=0 и Li>=0
Всё это вместе называется Kacish-Kuhin-Ticker condition.
10. Задача решения параметров для Support Vector Machine может быть преобразована в задачу:
min (1/2 * ||w||^2)
Условия: G(w, b)=-Yi*(w^T*Xi + b)+1 <=0
Min относительно параметров W, и B.
Затем требуется произвести максимизацию относительно параметров Li
Затем найдя Li, можно найти Wi, и затем найти B
W=Summ(Li*Yi*Xi)
B=(max(Wi*Xi) {Yi=-1} + min(Wi*Xi) {Yi=+1}) / 2.0
11. Kernels в терминах машинно обучения это способ вычислить скалярное произведение между двумя Xi.
Вполне возможно что размерность пространства, в котром заданы точки Xi, бесконечна.
Для задачи распознавания цифр SVM работает лучше чем нейронные сети, разрабатываемых и считающиеся лучщими для такой задачи уже десятилетия, для kernel такого вида:
K(Xi, Xj) = (Xi^T * Xj)^d;
или
K(Xi, Xj) = exp(-||Xi- Xj||^2/(2*sigma^2))