🎯 분산분석(analysis of variance : ANOVA)
- 셋 이상의 모집단의 평균 차이를 검정
cf. t-test : 두개의 모집단의 평균 차이를 검정
1. 실험계획법(experimental design)
- 모집단의 특성에 대하여 추론하기 위해, 특별한 목적성을 가지고 데이터를 수집하기 위한 실험 설계
- 반응변수 : 관심의 대상이 되는 변수
- 요인/인자(Factor) : 실험 환경 또는 조건을 구분하는 변수로 실험에 영향을 주는 변수
- 인자수준 : 인자가 취하는 개별 값(처리:treatment)
2. 왜 분산분석일가?
- 모집단의 평균들을 비교하기 위하여 특성값의 분산 또는 변동을 분석하는 방법
- 실험을 통해 얻은 편차의 제곱합을 통해 평균의 차이를 검정
3. 분산분석의 기본 가정
1) 각 모집단은 정규 분포를 따른다
2) 각 모집단은 동일한 분산을 갖는다
3) 각 표본은 독립적으로 추출되었다
4. 분산분석의 가설과 실험의 가정
1) 가설
$H_0$: 각 집단의 평균은 동일하다 vs $H_1$ : 각 집단의 평균에 차이가 있다
2) 실험의 가정
- 반복의 원리 : 실험을 반복해서 실행해야 함
- 랜덤화의 원리 : 각 실험의 순서를 무작위로 해야함
- 블록화의 원리 : 제어해야 할 변수가 있다면 인자에 영향을 받지 않도록 조건을 묶어서 실험해야 함
📍 일원 분산분석(One-way ANOVA)
- 한가지 요인을 기준으로 집단간의 차이를 조사하는 것
- 한 개의 반응변수와 한 개의 독립인자
- 반응 변수: 연속형 변수만 가능
- 독립 인자(변수): 이산형 또는 범주형 변수만 가능
ex) A,B.C 3개의 편의점에서 만족도를 조사한 결과 만족도의 차이가 있는가?
ex) 생산라인 A, B, C에서 생산되는 웨이퍼의 불량률은 차이가 있는가?
1) 자료구조
2) 분산분석표
3) 가설
$H_0 : \mu_1 = \mu_2 = \cdot\cdot\cdot = \mu_k$ vs $H_1$
적어도 하나 이상의 평균이 같지 않다.
4) 검정통계량
$F = \frac{MS_{tr}}{MSE}$, 귀무가설 하에서 $F$의 관측값 : $f_0$
5) 기각역(유의수준 $\alpha$)
$f_0 \geq F_\alpha(k-1,N-k)$이면, $H_0$를 기각
6) 유의확률($p$값)
$F \sim F(k-1, N-k) $일 때,
$p$ 값 $= P \left\{F \geq f_0\right\}$ 이고, $p$ 값이 $\alpha$보다 작으면 $H_0$를 기각
📌 이원 분산분석(two-way ANOVA)
- 한 개의 반응변수와 두 개의 독립인자로 분석하는 방법
- 두 가지 요인을 기준으로 집단 간의 차이를 조사하는 것
ex) 만족도에 영향을 주는 인자 : 편의점 브랜드, 상권
→ 편의점 브랜드별로 상권을 변경하면서 만족도가 다른지 측정하고 분석하는 방법
- 독립인자는 one-way와 마찬가지로 이산형 또는 범주형 변수만 가능
1. 상호작용(Interaction effect)
- 한 독립변수의 main effect가 다른 독립변수의 level에 따라서 원래의 선형관계를 비선형관계로 변하는 경우
$SST = SSB_i + SSB_j + SSB_{ij} + SSW$
(총 편차) = (독립변수 $i$의 편차) + (독립변수 $j$의 편차) + ($i$와 $j$의 상호작용) + (집단 내 편차)
$SST = \sum\sum\sum(\overline{x_{ijk}}-\overline x)^2$ $SSB_i = \sum k_i(\overline{x_{ik}}-\overline x)^2$
$SSB_j = \sum k_j(\overline{x_{jk}}-\overline x)^2 $ $SSB_{ij} = \sum k(\overline{x_{ij}}-\overline {x_i}-\overline {x_j}-\overline {x})^2$
$SSW = \sum\sum\sum(\overline{x_{ijk}}-\overline x)$
1) 첫 번째 main effect 가설
$H_0 : \mu_{11} = \mu_{12} = \cdot\cdot\cdot=\mu_{1k}$ vs $H_1$
적어도 하나 이상의 평균이 같지 않다, k는 그룹의 갯수
2) 두 번째 main effect 가설
$H_0 : \mu_{21} = \mu_{22} = \cdot\cdot\cdot=\mu_{2k}$ vs $H_1$
적어도 하나 이상의 평균이 같지않다
3) 상호작용에 대한 가설
$H_0$ : 교호작용이 없다 vs $H_1$ : 교호 작용이 있다.
🔍 참고 문헌
R Friend, <R (2) 이원분산분석(two-way ANOVA)><R, Python 분석과 프로그래밍의 친구>, 2015.11.18, https://rfriend.tistory.com/136
R (2) 이원분산분석(two-way ANOVA) - 관측값이 두개 이상일 경우
2개의 모집단에 대한 평균을 비교, 분석하는 통계적 기법으로 t-Test를 활용하였다면, 비교하고자 하는 집단이 3개 이상일 경우에는 분산분석 (ANOVA : Analysis Of Variance)를 이용합니다. 설명변수는
rfriend.tistory.com
'통계 & 수학 > 통계학' 카테고리의 다른 글
[통계] 시계열 분석 (0) | 2022.05.19 |
---|---|
[통계] 다중 회귀분석 (0) | 2022.05.19 |
[통계] 단순 회귀분석 (0) | 2022.05.19 |
[통계] 상관분석 (0) | 2022.05.19 |
[통계] 범주형 자료 분석 (0) | 2022.05.18 |