상관분석이 두 변수의 선형적인 연관성을 비교하는 것이라면,
회귀분석은 선형적인 상관성을 가진 변수간의 인과관계를 증명하는 것이다.
여기에서 원인이 되는 독립변수와 결과가 되는 종속변수의 개념이 등장하며,
독립변수가 1개, 종속변수가 1개인것을 단순회귀분석이라 한다.
다중회귀분석은 종속변수가 1개로 같지만 독립변수가 2개 이상인 것을 의미한다.
변수의 수 및 종류에 따라 표현한 것으로 독립변수가 한개인것을 단순회귀 분석,
독립변수가 두개 이상인것을 다중회귀분석이라 한다.
그림에서 상관분석은 두 변수 사이의 원인과 결과가 아닌 서로 상관적 영향이 있는지를 분석하는 것이고,
회귀 분석은 인과관계로서 독립변수가 종속변수에 얼마만큼 영향을 주는지를 분석하는 것이다.
화살표의 방향을 보면 이해하는 데 도움이 될 것이다.
앞에서도 얘기했지만 독립변수는 영향을 미치는 변수 즉, 원인변수이며, 종속변수는 영향을 받는 변수 즉, 결과 변수이다. 따라서 아무런 상관이 없는 변수가 아닌 서로 논리적 타당성이 있는 변수를 독립변수와 종속변수로 설정해야 한다. 회귀분석의 가장 기본적인 과업은 상수 및 베타회귀계수를 구하는 것이다.
두 변수간의 관계에서 독립변수와 종속변수의 설정은 어디까지나 논리적 타당성을 토대로 해야 한다.
논리적 타당성과 함께 자료분석 결과 독립변수로 설정된 변수의 변화에 따라 종속변수로 설정된 변수의 변화가 있는 것으로 나타나면 비로소 두 변수간의 인과관계가 있는 것으로 추정할 수 있다.
하지만, 논리적 근거가 없이 어떤 임의의 두 변수 중 하나를 독립변수, 다른 하나를 종속변수로 설정하여 회귀분석 결과 독립변수의 계수가 통계적으로 유의적이라 하더라도 두 변수간에 인과관계가 있다고 주장할 수는 없다. (회귀분석의 결과 만으로는 결코 인과관계를 규명할 수 없음).
위의 회귀식에서 엡실론(ε ; epsilon)은 잔차(residual)를 의미하며 종속변수와 독립변수와의 관계를 밝히는 통계모형에서 모형에 의하여 추정된 종속변수의 값과 실제 관찰된 종속변수 값과의 차이이다. 이 차이는 오차(error)로도 해석되며, 통계모형이 설명하지 못하는 불확실성 정보이다.
1. 범위(R)는 최대값에서 최소값을 뺀 값이다. 쉽고 단순해서 좋지만 범위는 같지만 분포되어 있는 특성이 다를 수 있으므로 주의가 필요하다.
2. 범위는 데이터가 중심(평균)으로부터 얼마나 떨어져 있는지에 대한 정보를 제공하지 못한다. 분산(V)은 이러한 단점을 보완해준다. 분산은 각 데이터에서 평균을 뺀 제곱 값을 모두 합하여 샘플사이즈(n-1)로 나눈 값이다. 그림을 보면 D 의 그래프가 가장 작은 분산을 나타내는 것을 확인할 수 있다.
3. 표준편차(SD)는 분산의 값에 제곱근을 취한 값으로, 실제 데이터 값과 동일한 조건 하에서의 평균으로부터 떨어진 정도를 파악할 수 있다. 아래 그림은 마찬가지로 동일한 데이터 셋에 대하여 오차막대(Error Bar)를 그린 것이며 막대 끝 상하 지점값이 1 표준편차가 된다. 즉, D그룹의 +1 시그마 값이 5.1 이다. 만약 데이터가 정규분포라면 +/- 1 표준편차는 전체 데이터의 68%를 포함하며 +/- 2 표준편차는 95% 그리고 3 표준편차는 99.7%가 된다.
4. 표준오차(SE)는 표본 평균이 모집단 평균을 얼마나 정확하게 추정하는지를 알기 위한 것이며, 모딥단 평균에 대한 신뢰구간을 작성하는데 사용된다.
표준편차와 표준오차가 조금은 혼동된다.
쉽게 말하면 모집단에서 샘플을 채취해 평균을 냈는데 그 샘플들의 평균과 어느 한 샘플과의 차이를 표준편차라 정의하고, 표준 오차는 각 표본들의 평균이 전체 모집단의 평균과 얼마나 떨어져 있는가를 나타내는 척도이다.
'Statistics and Math' 카테고리의 다른 글
CH01_05. 파티션 (0) | 2022.09.26 |
---|---|
CH01_04 집합의 연산 (1) | 2022.09.26 |
CH01_03. 집합의 포함관계 (1) | 2022.09.26 |
CH01_02 집합 (2) | 2022.09.26 |
CH01_01 .대수학적 특징과 항등원, 역원 (2) | 2022.09.26 |