Библиография
[V Канатников и др. Дифференциальное исчисление функций многих переменных, p.178]
При анализе поведения функций (в численных методах/машинном обучении) с ограничениями на область определения,
часто приходится обращаться к функции Лагранжа.
Сложное обоснование корректности:
http://ru.wikipedia.org/wiki/Метод Множителей Лагранжа
Простое обоснование корректности, вообще без крючков:
Требование поиска минимума функции Лагранжа приводит к требованию равенства нулю всех частных производный от функции Лагранжа. (первый необх. признак экстремума функции многих переменных)
Система определенная таким образом будет пытаться найти минимум функции L.
В полученную систему будет кроме всего прочего так же будет входить требование равенства нулю функции ограничения - она появится при получении частной производной по лямбда.
Таким образом минимум функции Лагранжа достигается в той области в которой функцию-ограничения равна нулю (пусть это будет область Q).
А поскольку функция-ограничения на оптимальном множестве равна нулю, то её вообще можно как-бы отбросить.
И таким образом минимальное значение функции Лагранжа в точке минимума в области Q не будет зависеть от значения коэффициента Лагранжа.
Зададимся вопросом где-же функция достигает минимума на области Q?
Ответ такой же: там где функция достигает минимума на области Q.
Я только единственный раз в жизни слышал про такое просто обоснование - оно было от семинариста с кафедры ФН МГТУ им.Н.Э.Баумана Власова П.А в ~2004 году.
Оно показывает что оптимальные значения следует искать в области где дифференциал функции Лагранжа равен нулю.
С крючками на примере функция двух переменных: f - функция которую мы минимизируем в области fi = 0
Необходимое условие:
=> fi задаёт неявную функцию h(x) для которой
=> можно перейти от поиска экстремума функции f(x,y) к задаче поиска экстремума функции g(x)=f(x, h(x)), которая имеет экстремум => g'(x=a) = 0
Выполняя дифференцирование можно получить:
=>
Систему можно переписать к виду grad(f()) = -lamda * grad(Fi)
Общий случай при наличии нескольких функций-ограничений, и многих переменных описывается формулой:
Затем требуется выполнять анализ функции L.
Достаточное условие уловного экстремума:
Если в точке выполнены ограничения, то фиксируем значение лямбда и рассматриваем функцию Лагранжа только как функцию от L(x, фиксированное значение). И если:
1. Эта модифицированная функция Лагранжа положительно определена в интересующей нас точке
=> то имеется условный локальный минимум
2. Эта модифицированная Функция Лагранжа отрицательно определена в интересующей нас точке
=> то имеется условный локальный максимум
3. Это модифицированная функция Лагранжа знакопеременная
=> то в точке ничего нет
[V Канатников и др. Дифференциальное исчисление функций многих переменных, p.178]
Дугие Важные свойства градиента
1. grad(F(x,y,z)) задает вектор нормали для касательной поверхности, заданной уравнением F(x,y,z)=0
2. Если смотреть на F(x,y,z) как на способ задания функции от трёх аргументов, то для любой поверхности уровня F(x,y,z)=Const градиент ортогонален ей поскольку grad(F(x,y,z) - Const) = grad(F(x,y,z))