세계거버넌스지수 PCA 분석

주성분분석이란

주성분분석(principal component analysis, PCA)은 변수의 차원을 축소하는 방법이다. 주성분분석은 변수들을 선형 결합하고 서로 상관되지 않는 변수를 추출하는 과정이다. 만일 변수의 수가 p개인 경우 최대 주성분의 수는 p개이다. 첫번째 주성분은 가능한 관찰된 변수들의 총분산을 가장 많이 설명할 수 있는 변수이며, 두번째 주성분은 나머지 총 분산을 가능한 한 많이 설명할 수 있는 변수이다. 세계거버넌스 지수(WGI)는 6개의 변수로 구성되어 있다. 변수들의 상관관계가 높기 때문에 회귀분석에 활용하는 경우 다중공선성 문제가 발생할 수 있다. 따라서 다수의 연구자들은 주성분분석을 활용하여 세계거버넌스지수가 갖고 있는 다중공선성 문제를 극복하고자 한다. 아시아지역정보센터는 활용가능한 데이터를 제공하기 위하여 세계거버넌스지수의 주성분분석 점수를 계산하였다.

분석결과

주성분분석 수행 전, 변수를 정규화하는 것이 추천된다. 세계거버넌스지수는 -2.5에서 2.5 사이의 값으로 정규화된 지표이므로 추가적인 정규화는 수행하지 않았다. 관측치 수는 연도별로 214개이며 기간은 1996년부터 2020년까지이다. (2002년까지 지표는 반년마다 제공되었다). 만일 연도별로 주성분분석을 수행하는 경우 축소된 차원이 연도별로 상이할 수 있다. 즉, 각 연도별 주성분이 동일한 변수에 의한 것이 아닐 수 있다. 따라서 1996년부터 2020년까지의 세계거버넌스지수 전체 데이터를 활용하였다. 그렇기 때문에 새로운 데이터가 추가될 때마다 PCA 점수가 상이해질 수 있다.

기술통계

각 연도마다 약 10에서 20개의 결측값이 있다. 세계거버넌스지수는 정규화된 지표이므로 평균과 표준편차는 각각0과 1이다. 주성분분석을 활용하려면 변수 간의 상관관계가 있어야 한다. 상관관계 표를 살펴보면 WGI 2, WGI 4 간의 상관계수 최솟값은 0.6553이며, WGI 2와 WGI 4 간 상관계수 최댓값은 0.9426이다.

주성분분석

WGIs의 총 공분산은 6이며 고유값은 각 주성분의 분산이다. 고유값은 각 주성분이 총 분산을 설명하는 정도로 해석할 수 있다. 첫 번째 주성분의 고유값 비율은 84.77%이다 (5.08629144 / 6). 즉, 첫 번째 주성분이 총 공분산의 84.77%를 설명한다. 주성분의 수를 선택할 때 총 공분산의 70% 이상을 설명할 수 있는 주성분의 수를 선택하는 것이 권장된다는 점(O'Rourke & Hatcher 2013: 19)을 고려하여 첫 번째 주성분만 선택하였다.

요인 패턴은 변수들과 주성분 간의 상관관계를 나타낸다. 첫 번째 주성분 (Factor 1)은 모든 변수와 양의 상관관계를 보였으며 상관관계가 가장 낮은 변수는 WGI 2, 가장 큰 변수는 WGI 5 이다.

민감도분석

1996년부터 2020년까지의 전체 관측치를 활용하여 주성분을 계산하였기 때문에 분석결과의 민감도 분석을 수행하였다. 분석을 위하여 2020년과 전체 기간의 주성분 순서를 비교하였다. 아래 표의 Rank 변수는 2020년과 전체 기간의 주성분 순서를 나타낸다. Difference 변수는 2020년과 전체 기간의 주성분 순위가 상이할 때 1이 된다. 순서가 다른 국가는 총 36개였으며 그 중 차이가 2개 순위 이상인 경우는 없었다. 예를 들어, 노르웨이와 핀란드의 순서에서 차이가 나타났으며 다른 국가들은 동일하였다. 따라서 2020년과 전체 기간 간에는 큰 변화가 없다고 결론내릴 수 있다.

PCAcompare.xlsx