deda
Deda의 데이터 디자인
deda
전체 방문자
오늘
어제
  • 분류 전체보기 (121)
    • Python (27)
      • Python 기초 (17)
      • Python 데이터분석 (10)
    • SQL (9)
    • Coding test (54)
      • Python 기초문제 (45)
      • LeetCode (9)
    • BigData (2)
    • ZeroBase (3)
    • UX (0)
    • Business Review (1)
    • 통계 & 수학 (17)
      • 통계학 (14)
      • 수학 (3)
    • 스터디 (6)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 제로베이스
  • 등비수열
  • 빅데이터
  • 파이썬
  • 미니콘다
  • 데이터분석가
  • 데이터엔지니어
  • 데이터사이언티스트
  • 최소공배수
  • 네카라쿠배
  • 릿코드
  • 통계
  • 계산기
  • 모듈
  • BMI
  • 등차수열
  • 함수
  • SQL
  • pandas
  • 데이터분석
  • 군수열
  • 프로그래밍
  • 코딩
  • 소인수분해
  • 기초수학
  • 부트캠프
  • matplotlib
  • 팩토리얼
  • 마이데이터
  • 계차수열

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
deda

Deda의 데이터 디자인

[통계] 추정
통계 & 수학/통계학

[통계] 추정

2022. 5. 18. 14:43

📊​추정

1. 추정(estimation)

- 모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것

 

 

2. 추정량(estimator)

- 표본 평균으로 모평균을 추정할 때 표본 평균


 

📌 점추정(point estimation)

- 모수를 하나의 특정값으로 추정 하는 방법

 

 

1. 일치성(Consistency)

- 표본의 크기가 모집단의 크기에 근접해야 함

- 표본이 크기가 크면 클수록(모집단에 가까울 수록) 추정량의 오차가 작아짐 

 

2. 불편성(Unbiased estimator)

- 추정량이 모수와 같아야 함 

- 불편 추정량 : 모수가 $\theta$이고 추정량이 $\widehat{\theta}$라고 정의하면, $E[\widehat{\theta}]=\theta$

-  즉, $E[\widehat{\theta}]=\theta$ 일때의 추정량을 불편 추정량이라고 하고, 같지 않다면 편의(biased)있다고 함

 

3. 유효성(efficiency)

- 추정량의 분산이 최소값이어야 함
- 모수에 대한 추정량의 분산이 작을 수록 추정량이 효율적이다는 의미임 

- 만약 모수 $\theta$의 불편추정량이 $\widehat{\theta_1}$.$\widehat{\theta_2}$이라면, $Var[\widehat{{\theta}_1}] < Var[\widehat{{\theta}_2}]$, $\widehat{{\theta}_1}$ 효율적인추정량임 

 

4. 평균오차제곱(Mean Squared Error, MSE)

- 평균오차제곱($E[(\widehat{\theta}-\theta)^2]$)이 최소값이어야 함


 

🎯 구간 추정(interval estimation)

-  모수가 포함될 수 있는 구간을 추정하는 방법

 

 

1. 신뢰구간(confidence level)

- 추정값이 존재하는 구간에 모수가 포함될 확률 

-  신뢰수준은 $100* (1-\alpha)%$로 계산하며, $\alpha$는 오차수준임

-  신뢰수준 95%라는 것은 구간 추정된 값의 오차가 발생할 확률이 5%라는 것을 의미함

-  이 오차를 유의 수준(significant level)이라고 하며, p= 0.05라고 함

- 신뢰구간은 신뢰 하한, 신뢰 상한으로 표시하며 아래와 같은 수식으로 표현 (추정하는 모수가 $\theta$)

 

$ P[L(\widehat{\theta}) \leq \theta \leq U(\widehat \theta)]= 1 - \alpha$

 

- 만약, 모평균 $\mu$를 추정한다면, 표본평균이 $\overline x$이고 표준오차가 $sd$고 하면 신뢰구간은 아래와 같음

 

$\overline{x} - z\cdot sd \leq \mu \leq \overline x + z \cdot sd$

 

- 구간추정에서 신뢰구간의 의미는 아래의 이미지로 이해 할 수 있음

 

$P(z \leq Z \leq z)$의 CI 가 0.95일 때, $z=1.96$ 

 

 

 1) 모집단의 분산을 아는 경우

$X_1,X_2,\cdot\cdot\cdot,X_n \sim idd$  $N(\mu,\sigma^2)$,      $\widehat{\mu} \overline {X}\sim N\left(\mu,\frac{\sigma^2}{n}\right)$,    $Z\sim N(0,1)$

 

$\mu$의 95% 신뢰구간 : $(\overline x - z_{\alpha/2}*\frac{\sigma}{\sqrt n} \leq \mu \leq \overline x + z_{\alpha/2}1*\frac{\sigma}{\sqrt n})$

 

$P[-.196 \leq Z \leq 1.96] = 0.95$

 

 

 2) 모집단의 분산을 모르는 경우(t-분포 사용)

$X_1,X_2,\cdot\cdot\cdot,X_n \sim idd$  $N(\mu, \sigma^2)$,   $T=\frac{\overline{X}-\mu}{s/\sqrt{n}} \sim t(n-1)$

 

 

- $\mu$ 95% 신뢰구간 계산

 

 

3) 표본의 크기 결정

- 허용오차(permissible error): 추정한 값이 틀려도 허용할 수 있는 오차

- 정규분포의 신뢰구간을 통해 허용 오차를 계산

 

$n=\left(\frac{z_{\alpha/2}*\sigma}{d} \right)^2   $,  $d$: 허용 오차

 

$P(|\overline{X}-\mu| \leq d) = 1-\alpha  $

 

$d=z_{\alpha/2}*\frac{\sigma}{\sqrt{n}}$

 

$n=\left (\frac {z_{\alpha/2}*\sigma}{d} \right)^2$


 

📈 모비율 추정

1. 모비율의 점추정

- 비율에 대한 추정으로 우리가 원하는 속성(class)에 속하면, ‘1’ 아니면 ‘0’일 때, 1의 속성을 갖는 것의 개수를 X라고 하면

$ X \sim B(n,p) $

 

-  이 때 모비율의 점추정량을 표본 비율(sample proportion)이라고 함 (\widehat p = X/n)

    예시) A대학의 취업에 성공한 학생의 비율은 몇%일가? 

 

tip) 소표본의 $\sigma$를 모를 경우만 t를 쓰고, 나머지는 z를 쓰지만 t를 다써도 문제는 없다.

 

 

2. 모비율의 구간 추정

- 모비율 구간 추정에서 정규분포의 근사가 가능한 대표본은 보통 $np > 5$, $n(1-p)>5$를 동시에 만족 해야 한다.

- N이 충분히 크면 C.L.T에 의해서, 

$Z=\frac{\widehat p -p}{\sqrt{p(1-p)/n}} \sim N(0,1) $

$$P\left (-z_\frac{\alpha}{2} \leq Z \leq z_\frac{\alpha}{2}\right)=1-\alpha$$

 

 

 1) 모평균 차이의 추정(점추정)

$$E(\overline {X_1} -\overline {X_2})= E({\overline {X_1}}) - E({\overline {X_2}}) = \mu_1-\mu_2$$

 

$$Var(\overline {X_1} -\overline {X_2})= Var({\overline {X_1}}) - Var({\overline {X_2}}) = \frac{\sigma_1^2}{n_1}+ \frac{\sigma_2^2}{n_2}$$

 

 

 2) 모평균 차이의 추정(구간추정: 대표본)

 

 

 3) 모평균 차이의 추정(구간추정: 소표본, 모분산을 모르는 경우)
- 두 모집단의 분산을 아는 경우에는 대표본과 동일하게 추정 가능하지만,
- 모르는 경우에는 등분산 가정이 필요(두 모집단의 분산이 같다는 가정이 필요 $\sigma_1^2 =\sigma_2^2 =\sigma^2$) 

- 합동 분산 추정량(pooled variance estimator): 공통 분산의 추정량

 

 

 

 4) 모비율 차이의 추정(점추정)

 


 5) 모비율 차이의 추정
(구간추정) 

'통계 & 수학 > 통계학' 카테고리의 다른 글

[통계] 범주형 자료 분석  (0) 2022.05.18
[통계] 가설 검정  (0) 2022.05.18
[통계] 모집단과 표본 분포  (0) 2022.05.18
[통계] 확률분포 - 연속형 확률 분포  (0) 2022.05.17
[통계] 확률분포 - 이산형 확률분포  (0) 2022.05.17
    '통계 & 수학/통계학' 카테고리의 다른 글
    • [통계] 범주형 자료 분석
    • [통계] 가설 검정
    • [통계] 모집단과 표본 분포
    • [통계] 확률분포 - 연속형 확률 분포
    deda
    deda
    데이터 분석 / 파이썬 / UX / 정량리서치

    티스토리툴바