📍회귀 분석
1. 회귀 분석(regression analysis)
- 변수들간의 함수적 관계를 선형으로 추론하는 통계적 분석 방법
- 독립변수를 통해 종속변수를 예측
- 비선형인 함수적 관계일 경우, 비선형회귀(nonlinear regression)를 사용
ex) 마케팅 비용에 따른 매출액을 예측
2. 종속 변수(dependent variable)
- 예측을 하고자 하는 변수, 다른 변수의 영향을 받는 변수로 반응변수라고도 표현
ex) 매출액, 수율, 불량율 등
3. 독립 변수(independent variable)
- 예측 하는 값을 설명해주는 변수, 종속변수에 영향을 주는 변수로 설명변수라고도 표현
🎯단순 회귀 분석(simple regression analysis)
- 하나의 독립변수로 종속변수를 예측하는 회귀 모형을 만드는 방법
1. 최소 제곱법
- 회귀 모형의 모수 $\beta_0$, $\beta_1$을 추정하는 방법 중 하나
- 회귀계수 : 회귀모형의 모수
- 최소제곱추정량(LSE): 최소 제곱법을 통해 구한 추정량
- OLS(Ordinary Least Square) : 최소제곱법을 통해 회귀모형의 모수를 추정
- 회귀모형의 오차 기본가정
1) 정규성 가정 : 오차항은 평균이 0인 정규 분포를 따름
2) 등분산성 가정 : 오차항의 분산은 모든 관측값 $x_i$에 상관없이 일정함
3) 독립성 가정 : 모든 오차항은 서로 독립임
$y = \beta_0+\beta_0x_i+\varepsilon_i$, $\varepsilon_i \sim idd$ $N(0,\sigma^2)$
2. 분산 분석표
- 추정된 회귀식에 대한 유의성 여부는 분산분 석을 통해서 회귀식의 유의성을 판단할 수 있음
- 평균제곱(mean square) : 제곱합을 각각의 자유도 나눈 값
$y_k-\overline y = (y_k-\widehat {y_k}) +(\widehat {y_k} - \overline y)$
①SST(총제곱합) = ②SSE(잔차제곱합) + ③SSR(회귀 제곱합)
자유도 : $n-1$
- 평균제곱오차(mean square error) : SSE/(n-2) = $\widehat {\sigma^2} $
- 회귀평균제곱(regression mean square) : SSR/1
3. 회귀분석의 $\beta_0$, $\beta_1$의 추론과 가설 검정
1) 점 추정량
2) $\beta_0$, $\beta_1$의 평균, 분산
3) $\beta_1$의 신뢰구간
4) 가설 검정
(1) 가설 수립
(2) 검정통계량
(3) 기각역
3. 결정 계수(Coefficient of determination: $R^2$)
- 추정된 회귀식이 얼마나 전체 데이터에 대해서 적합한지(설명력이 있는지)를 수치로 제공하는 값
- 0과 1사이의 값으로 1에 가까울수록 추정된 모형이 설명력이 높다고 할 수 있음
- 0이라는 것은 추정된 모형이 설명력이 전혀 없다고 할 수 있음
$$R^2 = \frac{SSR}{SST}=1-\frac{SSE}{SST}$$
4. 수정 결정 계수(Adjust $R^2$)
- $R^2$은 유의하지 않은 변수가 추가되어도 항상 증가됨(다중회귀)
- Adjust $R^2$은 특정 계수를 곱해줌으로서 $R^2$가 항상 증가하지 않도록 함
- 보통 모형 간의 성능을 비교할 때 사용함
$$R_{adj}^2 = 1- \left[\frac{n-1}{n-(p+1)} \right]\frac{SSE}{SST}$$
5. 잔차 분석
a) 선형성을 벗어나는 경우
- 종속변수와 독립변수가 선형 관계가 아님
b) 등분산성이 벗어난 경우
- 일반적인 회귀모형 사용 불가능
- 등분산성 가정 위배
c) 독립성에 벗어나는 경우
- 시계열 데이터 또는 관측순서에 영향을 받는 데이터에서는 독립성을 담보 할 수 없음
- 이 경우, Durbin-Watson test 실행
d) 정규성을 벗어 나는 경우
- Normal Q-Q plot으로도 확인
- 잔차가-2~+2사이에분포해야함
- 벗어나는 자료가 많으면 독립성 가정 위배
'통계 & 수학 > 통계학' 카테고리의 다른 글
[통계] 분산 분석 (0) | 2022.05.19 |
---|---|
[통계] 다중 회귀분석 (0) | 2022.05.19 |
[통계] 상관분석 (0) | 2022.05.19 |
[통계] 범주형 자료 분석 (0) | 2022.05.18 |
[통계] 가설 검정 (0) | 2022.05.18 |