티스토리 뷰

상관분석과 선형회귀의 공통점

상관관계 분석과 선형 회귀 분석 모두 두 정량적 변수 사이에 선형 관계가 존재하는지 여부를 확인하고자 합니다. 그들은 한 변수의 변화가 다른 변수의 변화와 연관되는 정도를 정량화합니다. 두 결과는 -1부터 1까지의 척도로 측정되며, -1은 완벽한 음의 연관성을 나타내고 1은 완벽한 양의 연관성을 나타냅니다. 상관 계수 또는 회귀 계수가 0에 가까우면 변수 간의 연관성이 거의 없거나 아예 없음을 나타냅니다. 둘 다 동일한 공식과 계산 방법을 사용합니다. n개의 데이터 점 표본의 경우 변수 간 공분산을 표준 편차의 곱으로 나누어 상관관계/회귀 계수에 도달합니다. 상관 분석 결과의 상관 계수는 선형 회귀로부터의 회귀 계수와 동일한 모집단 모수(인구 회귀선의 기울기)를 나타냅니다. 따라서 이론적으로 큰 표본 상관은 동일한 데이터에 대한 선형 회귀로부터의 회귀 기울기와 동일해야 합니다.

 

두 알고리즘의 차이점

이 통계적 분석은 둘 다 변수들 간의 연관성을 탐구하지만 중요한 차이점이 있습니다. 상관관계 분석은 단순히 두 변수 간의 연관성의 강도와 방향을 설명하는 반면, 선형회귀분석은 독립변수(X)를 기준으로 종속변수(Y)의 값을 예측하거나 예측하는 것을 목표로 합니다. 회귀 모형은 종속 변수(관심 결과)에 잠재적으로 영향을 미치는 하나 이상의 독립 변수를 포함합니다. 회귀 분석에서 연관성을 측정하는 하나의 척도는 'R-제곱'인데, 이는 예측 변수 집합이 종속 변수에서 어느 정도의 분산을 설명할 수 있는지를 나타냅니다. 예를 들어, 우리는 회귀 모형을 사용하여 공부에 소비한 시간과 시험 수행 간의 연관성을 탐구할 수 있습니다. 반면에 상관 분석은 설명 변수를 포함하지 않고 서로 상관관계가 있는 변수만 포함합니다. 위의 예를 계속하기 위해, 우리는 회귀 모형에 공부 시간을 독립 변수로 포함하는 대신 학생이 수업을 건너뛰었는지 여부와 시험 수행을 포함할 수 있습니다. 상관관계의 연관성을 측정하는 척도는 변수 집합이 서로 얼마나 강한 관계를 가지고 있는지 나타내는 '상관 계수'입니다. 그리고 상관관계는 종속변수 대 독립변수의 개념적 구분 없이 함께 평가하는 두 개의 정량적인 측정 변수가 필요합니다. 회귀분석은 한 변수(Y)를 다른 독립변수(X)에 정량적으로 종속변수로 명확하게 정의합니다. 상관관계는 단조적인 연관성만 필요로 하는 약한 가정을 만듭니다. 회귀는 유효한 예측에 필수적이지만 연관성만을 정량화하는 데는 필요하지 않은 선형성, 자기 상관 부족 및 등변성과 같은 추가적인 가정에 의존합니다. 상관관계는 연관성 강도만 나타내는 반면 회귀 분석은 X와 Y 사이의 예측 관계를 모형화하는 방정식, 종속 변수에 대한 독립 변수의 기울기 및 예측력 추정치 등과 같은 더 많은 정보를 제공합니다. 상관관계의 해석은 연관성으로 '양 대 음', '강 대 약'을 설명하는 것에 중점을 둡니다. 회귀 해석은 X로부터 Y 값을 예측하는 것을 중심으로 합니다. 이때 변동성은 회귀선 대 설명되지 않은 변동성을 의미합니다. 상관 계수와 회귀 계수가 동일한 통계적 연관 변수를 나타내지만 상관 분석은 일반적인 변수의 공동 이동을 설명하는 반면 회귀 분석은 독립 변수와 종속 변수 간의 관측된 선형 관계를 기반으로 미래 값을 예측하기 위해 서로 다른 독립 변수와 종속 변수를 갖는 예측 모형을 설정하는 것을 포함합니다. 상관관계는 인과적 메커니즘이나 예측을 위한 사용성을 나타내지 않고 선형관계의 정도를 단순히 수치화하는 반면, 선형회귀분석은 인과적 가정에 기초하여 예측을 위해 설계된 모델을 구축합니다. 두 기법 모두 변수들 간의 선형관계를 조사하기 위한 필수적인 도구이며, 탐색적 분석에 적합한 상관관계와 예측이 목표일 때 적용 가능한 회귀분석입니다. 이 두 가지 통계적 방법은 종종 함께 사용되기도 합니다. 선택은 구체적인 연구문제와 목표에 달려 있습니다. 이러한 기본적인 통계적 기법을 올바르게 사용하고 해석하기 위해서는 유사점과 차이점을 이해하는 것이 중요합니다.