티스토리 뷰

PCA의 개념과 사용 목적

PCA는 Principal Components Analysis의 약자로, 주성분 분석은 차원 축소 기술입니다. 이 기술의 목적은 데이터의 중복을 줄이는 것입니다. PCA는 데이터에 대한 보다 의미 있는 기초 또는 좌표계를 찾기 위한 감독되지 않은 선형 차원 축소 알고리즘이며 공분산 행렬을 기반으로 작동하여 샘플의 경우 가장 강력한 특징을 찾습니다. 이 시나리오는 차원성의 저주라고 불립니다. PCA 또는 주성분 분석은 많은 독립 변수를 단일 차원으로 통합함으로써 차원의 수를 줄일 수 있습니다. 특히 형상이 다른 스케일(예: 무게, 길이, 면적, 속도, 전력, 온도, 부피, 시간, 셀 번호 등)을 가질 때 상황이 좋지 않습니다. 우리는 이것을 차원, 즉 특징을 줄임으로써 해결 가능합니다. PCA를 사용해야 하는 때는 다음과 같습니다. 첫째, 더 나은 관점과 덜 복잡한 관점이 필요할 때입니다. 더 현실적인 관점이 필요하고 주어진 데이터 세트에 많은 기능이 있을 때, 특히 직관적인 지식이 있을 때는 이렇게 많은 기능이 필요하지 않습니다. 비슷하게 다른 많은 실습에서 모델링은 3D보다 2D가 더 쉽습니다. 둘째, 더 나은 시각화 때문입니다. 높은 차원으로 인해 더 나은 시각화를 얻을 수 없을 때 PCA를 사용하여 2D 또는 3D 형상의 그림자로 축소합니다. 예를 들어, 100개의 형상을 10개의 형상으로 변환할 때 여전히 2D 또는 3D로 표현할 수 없지만 훨씬 더 나은 앤드류 곡선을 얻을 수 있습니다. 셋째, 크기 축소를 원할 때 사용합니다. 데이터가 너무 많아서 데이터에 프로세스 집약적인 알고리즘(많은 감독 알고리즘과 마찬가지로)을 사용할 경우 중복성을 제거해야 합니다. 예를 들어 설명해 보겠습니다. 보통 분석하려는 사람들은 데이터를 모을 때 20개, 30개 또는 그 이상의 변수를 모으게 됩니다. 사람들은 자신들이 측정하는 것이 20개 또는 30개라고 생각할 수 있지만, 측정 횟수보다 더 적은 기본 요인('잠재 특성')을 측정할 수 있습니다. 좋은 예로 하계 올림픽의 종목인 10종 경기가 있습니다. 현대 10종 경기에는 100미터 경기, 110미터 허들, 400미터 경기, 1500미터 경기, 멀리 뛰기, 높이 뛰기, 포환 던지기, 원반 던지기, 장대높이뛰기 등 10개 종목이 있기 때문에 선수마다 종목별로 점수를 받기 때문에 10개를 측정하는 실험과 같습니다. 주성분은 10개의 점수로부터 3개의 성분을 분리하는 데 사용됩니다. PCA를 실행하면 10 변수 공간에서 가장 많은 변동을 설명하는 방향을 가리키는 성분이 나타납니다. 두 번째 성분은 첫 번째와 수직인 다음 방향을 찾고, 두 번째로 많은 변동을 찾는 것입니다. 그리고 여러분이 가진 많은 변수에 대해서도 마찬가지입니다. 10 변수는 10개의 성분을 의미하지만, 아마도 처음 세 개의 성분이 거의 모든 변동을 설명할 것입니다.

 

PCA의 제한 사항 및 주의점

데이터를 모은 후 바로 PCA를 적용하는 것은 좋지 않습니다. 이유는 데이터 변수마다 스케일이 다르기 때문입니다. 예를 들어 속도와 거리 두 변수의 경우 평균과 분산을 확인하면 수치 범주가 다릅니다. 이 경우 그대로 PCA를 적용할 경우 의미 있는 인사이트를 얻기 힘듭니다. PCA는 원래 변수의 공분산 행렬을 기반으로 새로운 방향을 찾습니다. 공분산 행렬이 변수 표준화에 민감하다는 것도 알고 있었습니다. 보통 우리는 모든 변수에 동일한 가중치를 부여하기 위해 표준화를 해야 합니다. PCA를 적용하기 전에 변수를 표준화하지 않으면 오해의 소지가 있는 방향으로 향한다는 것을 의미합니다. 그러나 모든 변수가 동일한 척도인 경우 변수를 표준화할 필요는 없습니다. 그리고 차원 축소를 적용하기 전에 먼저 PCA가 사용되는 가정에 대해 알아야 합니다. 첫째, 선형성을 지녀야 합니다. PCA는 주성분들이 원래의 특징들의 선형 조합이라고 가정합니다. 이것이 사실이 아니라면 PCA는 당신에게 합리적인 결과를 주지 못할 것입니다. 둘째, 분산이 크다는 것은 더 많은 구조를 의미합니다. PCA는 특정 차원이 얼마나 중요한지 측정하는 데 분산을 사용합니다. 따라서 고분산 축은 주성분으로 취급되고 저분산 축은 노이즈로 취급됩니다. 셋째, 직교성입니다. PCA는 주성분이 직교한다고 가정합니다. 만약 위의 가정이 성립하지 않을 경우 PCA가 실패할 수 있습니다.