Метод главных компонент

Модель множественной линейной регрессии - это уравнение вида:

При ее построении следует избегать мультиколлинеарности факторов. Мультиколлинеарность - это тесная линейная зависимость между независимыми переменными. Два фактора считаются явно коллинеарными, если коэффициент парной линейной корреляции между ними по модулю выше 0,7.

Один из способов избавиться от мультиколлинеарности при сохранении всех факторов в модели - это метод главных компонент преобразования исходной системы данных.

Алгоритм метода главных компонент

1. Стандартизация.

Известный набор из m экзогенных факторов по n наблюдений каждый формируют в виде матрицы и преобразовывают в набор стандартизованных переменных:

Преобразование идет по формулам:

где

2. Поиск корреляционной матрицы для набора данных X

Получим матрицу:

3. Расчет собственных чисел и собственных векторов для матрицы R

Собственным вектором v матрицы R называется такой вектор-столбец, для которого найдется число "лямбда", что

Все собственные числа матрицы R находят из уравнения:

В дальнейшем находят все нормированные собственные вектора и составляют из них матрицу. Сумма квадратов элементов каждого столбца данной матрицы равна 1.

4. Расчет матрицы факторных нагрузок:

где

5. Поиск главных компонент.

Если

То каждый элемент матрицы

Рассчитывается следующим образом:

Каждый столбец матрицы F - это отдельная главная компонента. Главной их особенностью является ортогональность, т.е. отсутствие попарной линейной зависимости.

Следующий шаг - построение регрессионной модели зависимости результативного показателя y от главных компонент и ее изучение. Проблема мультиколлинеарности факторов в такой модели будет отсутствовать.