deda
Deda의 데이터 디자인
deda
전체 방문자
오늘
어제
  • 분류 전체보기 (121)
    • Python (27)
      • Python 기초 (17)
      • Python 데이터분석 (10)
    • SQL (9)
    • Coding test (54)
      • Python 기초문제 (45)
      • LeetCode (9)
    • BigData (2)
    • ZeroBase (3)
    • UX (0)
    • Business Review (1)
    • 통계 & 수학 (17)
      • 통계학 (14)
      • 수학 (3)
    • 스터디 (6)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 미니콘다
  • 데이터사이언티스트
  • 함수
  • 통계
  • 등비수열
  • 릿코드
  • 빅데이터
  • 계차수열
  • 제로베이스
  • 모듈
  • 계산기
  • 군수열
  • 팩토리얼
  • 파이썬
  • 부트캠프
  • SQL
  • 마이데이터
  • 소인수분해
  • 네카라쿠배
  • 프로그래밍
  • 데이터분석가
  • 기초수학
  • 등차수열
  • BMI
  • matplotlib
  • 데이터엔지니어
  • 데이터분석
  • 코딩
  • 최소공배수
  • pandas

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
deda

Deda의 데이터 디자인

[통계] 분산 분석
통계 & 수학/통계학

[통계] 분산 분석

2022. 5. 19. 03:05

 

 

🎯 분산분석(analysis of variance : ANOVA)

- 셋 이상의 모집단의 평균 차이를 검정

  cf. t-test : 두개의 모집단의 평균 차이를 검정

 

 

1. 실험계획법(experimental design)

- 모집단의 특성에 대하여 추론하기 위해, 특별한 목적성을 가지고 데이터를 수집하기 위한 실험 설계

- 반응변수 : 관심의 대상이 되는 변수
- 요인/인자(Factor) : 실험 환경 또는 조건을 구분하는 변수로 실험에 영향을 주는 변수
- 인자수준 : 인자가 취하는 개별 값(처리:treatment)

 


2. 왜 분산분석일가?

- 모집단의 평균들을 비교하기 위하여 특성값의 분산 또는 변동을 분석하는 방법
- 실험을 통해 얻은 편차의 제곱합을 통해 평균의 차이를 검정

 


3. 분산분석의 기본 가정

 1) 각 모집단은 정규 분포를 따른다 
 2) 각 모집단은 동일한 분산을 갖는다
 3) 각 표본은 독립적으로 추출되었다

 

 

4. 분산분석의 가설과 실험의 가정

 1) 가설

$H_0$: 각 집단의 평균은 동일하다     vs     $H_1$ : 각 집단의 평균에 차이가 있다

 


 2) 실험의 가정
 - 반복의 원리 : 실험을 반복해서 실행해야 함
 - 랜덤화의 원리 : 각 실험의 순서를 무작위로 해야함
 - 블록화의 원리 : 제어해야 할 변수가 있다면 인자에 영향을 받지 않도록 조건을 묶어서 실험해야 함

 


 

📍 일원 분산분석(One-way ANOVA)

  - 한가지 요인을 기준으로 집단간의 차이를 조사하는 것

  - 한 개의 반응변수와 한 개의 독립인자
  - 반응 변수: 연속형 변수만 가능
  - 독립 인자(변수): 이산형 또는 범주형 변수만 가능
     ex) A,B.C 3개의 편의점에서 만족도를 조사한 결과 만족도의 차이가 있는가? 

     ex) 생산라인 A, B, C에서 생산되는 웨이퍼의 불량률은 차이가 있는가?

  

 

   1) 자료구조

 

 

   2) 분산분석표

 

 

   3) 가설

$H_0 : \mu_1 = \mu_2 = \cdot\cdot\cdot = \mu_k$   vs   $H_1$

적어도 하나 이상의 평균이 같지 않다.

 

 

   4) 검정통계량

$F = \frac{MS_{tr}}{MSE}$,  귀무가설 하에서 $F$의 관측값 : $f_0$

 

 

   5) 기각역(유의수준 $\alpha$)

$f_0 \geq F_\alpha(k-1,N-k)$이면, $H_0$를 기각

 

 

   6) 유의확률($p$값)

$F \sim F(k-1, N-k) $일 때, 

 

$p$ 값 $= P \left\{F \geq f_0\right\}$ 이고,   $p$ 값이 $\alpha$보다 작으면  $H_0$를 기각

 


 

 📌 이원 분산분석(two-way ANOVA)

- 한 개의 반응변수와 두 개의 독립인자로 분석하는 방법

- 두 가지 요인을 기준으로 집단 간의 차이를 조사하는 것
   ex) 만족도에 영향을 주는 인자 : 편의점 브랜드,
상권

          → 편의점 브랜드별로 상권을 변경하면서 만족도가 다른지 측정하고 분석하는 방법

 

- 독립인자는 one-way와 마찬가지로 이산형 또는 범주형 변수만 가능

 

 

1. 상호작용(Interaction effect)

- 한 독립변수의 main effect가 다른 독립변수의 level에 따라서 원래의 선형관계를 비선형관계로 변하는 경우

 

$SST = SSB_i + SSB_j + SSB_{ij} + SSW$

(총 편차) = (독립변수 $i$의 편차) + (독립변수 $j$의 편차) + ($i$와 $j$의 상호작용) + (집단 내 편차)

$SST = \sum\sum\sum(\overline{x_{ijk}}-\overline x)^2$         $SSB_i = \sum k_i(\overline{x_{ik}}-\overline x)^2$

$SSB_j =  \sum k_j(\overline{x_{jk}}-\overline x)^2 $                $SSB_{ij} = \sum k(\overline{x_{ij}}-\overline {x_i}-\overline {x_j}-\overline {x})^2$

$SSW = \sum\sum\sum(\overline{x_{ijk}}-\overline x)$

 

 

1) 첫 번째 main effect 가설

$H_0 : \mu_{11} = \mu_{12} = \cdot\cdot\cdot=\mu_{1k}$   vs   $H_1$

적어도 하나 이상의 평균이 같지 않다, k는 그룹의 갯수

 

 

2) 두 번째 main effect 가설

$H_0 : \mu_{21} = \mu_{22} = \cdot\cdot\cdot=\mu_{2k}$   vs   $H_1$

적어도 하나 이상의 평균이 같지않다

 

 

3) 상호작용에 대한 가설

$H_0$ : 교호작용이 없다    vs  $H_1$ : 교호 작용이 있다.

 

 


 

🔍 참고 문헌

R Friend, <R (2) 이원분산분석(two-way ANOVA)><R, Python 분석과 프로그래밍의 친구>, 2015.11.18, https://rfriend.tistory.com/136

 

R (2) 이원분산분석(two-way ANOVA) - 관측값이 두개 이상일 경우

2개의 모집단에 대한 평균을 비교, 분석하는 통계적 기법으로 t-Test를 활용하였다면, 비교하고자 하는 집단이 3개 이상일 경우에는 분산분석 (ANOVA : Analysis Of Variance)를 이용합니다. 설명변수는

rfriend.tistory.com

'통계 & 수학 > 통계학' 카테고리의 다른 글

[통계] 시계열 분석  (0) 2022.05.19
[통계] 다중 회귀분석  (0) 2022.05.19
[통계] 단순 회귀분석  (0) 2022.05.19
[통계] 상관분석  (0) 2022.05.19
[통계] 범주형 자료 분석  (0) 2022.05.18
    '통계 & 수학/통계학' 카테고리의 다른 글
    • [통계] 시계열 분석
    • [통계] 다중 회귀분석
    • [통계] 단순 회귀분석
    • [통계] 상관분석
    deda
    deda
    데이터 분석 / 파이썬 / UX / 정량리서치

    티스토리툴바