🎯다중 회귀 분석(multiple regression analysis)
- 2개 이상의 독립변수로 종속 변수를 예측하는 회귀 모형을 만드는 방법
1. 변수 선택법
1) 전진선택법(forward selection)
- 독립변수를 1개부터 시작하여 가장 유의한 변수들부터 하나씩 추가하면서 모형의 유의성을 판단
2) 후진 제거법(backward selection)
- 모든 독립변수를 넣고 모형을 생성한 후, 하나씩 제거하면서 판단
3) 단계접 방법(stepwise selection)
- 위의 두가지 방법을 모두 사용하여 변수를 넣고 빼면서 판단
2. 더미 변수(Dummy variable)
- 값이 ‘0‘ 또는 ‘1’로 이루어진 변수
- 범주형 변수를 사용하기 위해서는 더미변수가 필요함
ex) 사는 지역을 ‘1’, ‘2’, ‘3’으로 사용하면 연속형 변수여서 정확한 변수로 사용할 수 없음
- 범주형 변수를 0과 1의 조합으로 표현할 수 있도록 더미 변수를 생성함
ex)최종학력 : 고졸, 대졸, 석사, 박사 4가지로 표현한다면 필요한 더미의 개수는 4-1=3 개임
3. 다중공선성(Multicollinearity)
- 상관관계가 높은 독립변수들이 동시에 사용될 때 문제가 발생
- 결정계수 $R^2$ 값은 높아 회귀식의 설명력은 높음
- 그러나 독립변수의 P-value 커서 개별 인자들이 유의하지 않는 경우, 의심할수 있음
- 일반적으로 분산 팽창 요인(Variance Inflation Factor: VIF)이 10 이상이면 다중공선성이 존재함
- k번째 독립변수를 종속변수로 나머지를 독립변수로 하는 회귀모형의 결정 계수
$VIF = \frac{1}{{1-R_k^2}}$
* 해결 방안
1) 다중공선성이 존재 하지만 유의한 변수인 경우 목적에 따라서 사용할 수 있음
2) 변수 제거
3) 주성분분석으로 변수를 재조합
'통계 & 수학 > 통계학' 카테고리의 다른 글
[통계] 시계열 분석 (0) | 2022.05.19 |
---|---|
[통계] 분산 분석 (0) | 2022.05.19 |
[통계] 단순 회귀분석 (0) | 2022.05.19 |
[통계] 상관분석 (0) | 2022.05.19 |
[통계] 범주형 자료 분석 (0) | 2022.05.18 |