3-(3) 차원 축소 기법인 주성분 분석과 요인 분석의 차이
(3) 차원 축소 기법인 주성분 분석과 요인 분석의 차이는 무엇인지 설명해 주세요.
# 들어가며
예시 답안 (코드잇 제공)
주성분 분석(PCA)과 요인 분석(FA)은 모두 고차원 데이터를 저차원으로 축소하기 위한 기법이지만, 그 목적과 접근 방식에서 차이가 있다. <주성분 분석 (PCA)> 주성분 분석은 데이터의 분산(variability)을 최대한 보존하면서 차원을 줄이는 기법이다. 이 방법은 데이터의 주성분을 도출하여 원래 변수들을 해당 주성분으로 대체하는 방식을 취한다. 즉, 데이터의 분포를 가장 잘 설명할 수 있는 새로운 축(주성분)을 찾고, 이를 기준으로 데이터를 변환한다. PCA는 변수 간 상관관계를 고려하지만, 각 변수의 본래 의미에 대해서는 큰 비중을 두지 않는다. <요인 분석 (FA)> 요인 분석은 관찰된 변수들이 몇 개의 잠재적 요인에 의해 설명될 수 있다는 가정 하에 수행된다. 즉, 관찰된 여러 변수들이 공통된 몇 개의 ‘요인’에 영향을 받는다고 보는 접근 방식이다. 예를 들어, 학생 성적 데이터에서 여러 과목 점수가 ‘학업 능력’이라는 공통 요인에 의해 설명될 수 있다고 가정하는 것과 유사하다. 요인 분석은 변수 간 관계와 데이터 구조를 이해하기 위해 주로 사용된다. 요약하면, (1) PCA는 데이터의 분산을 최대한 보존하는 방향으로 차원을 축소하는 기법이며, 주로 데이터의 구조적 압축을 목적으로 한다. (2)FA는 관찰된 변수를 설명하는 잠재 요인을 도출하고 변수 간의 관계를 해석하는 데 중점을 둔다. 따라서, PCA는 분산 보존에 중점을 둔 기법인 반면, FA는 변수 간의 관계 해석에 중점을 두는 기법이라는 차이가 있다.