📊추정
1. 추정(estimation)
- 모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것
2. 추정량(estimator)
- 표본 평균으로 모평균을 추정할 때 표본 평균
📌 점추정(point estimation)
- 모수를 하나의 특정값으로 추정 하는 방법
1. 일치성(Consistency)
- 표본의 크기가 모집단의 크기에 근접해야 함
- 표본이 크기가 크면 클수록(모집단에 가까울 수록) 추정량의 오차가 작아짐
2. 불편성(Unbiased estimator)
- 추정량이 모수와 같아야 함
- 불편 추정량 : 모수가 $\theta$이고 추정량이 $\widehat{\theta}$라고 정의하면, $E[\widehat{\theta}]=\theta$
- 즉, $E[\widehat{\theta}]=\theta$ 일때의 추정량을 불편 추정량이라고 하고, 같지 않다면 편의(biased)있다고 함
3. 유효성(efficiency)
- 추정량의 분산이 최소값이어야 함
- 모수에 대한 추정량의 분산이 작을 수록 추정량이 효율적이다는 의미임
- 만약 모수 $\theta$의 불편추정량이 $\widehat{\theta_1}$.$\widehat{\theta_2}$이라면, $Var[\widehat{{\theta}_1}] < Var[\widehat{{\theta}_2}]$, $\widehat{{\theta}_1}$ 효율적인추정량임
4. 평균오차제곱(Mean Squared Error, MSE)
- 평균오차제곱($E[(\widehat{\theta}-\theta)^2]$)이 최소값이어야 함
🎯 구간 추정(interval estimation)
- 모수가 포함될 수 있는 구간을 추정하는 방법
1. 신뢰구간(confidence level)
- 추정값이 존재하는 구간에 모수가 포함될 확률
- 신뢰수준은 $100* (1-\alpha)%$로 계산하며, $\alpha$는 오차수준임
- 신뢰수준 95%라는 것은 구간 추정된 값의 오차가 발생할 확률이 5%라는 것을 의미함
- 이 오차를 유의 수준(significant level)이라고 하며, p= 0.05라고 함
- 신뢰구간은 신뢰 하한, 신뢰 상한으로 표시하며 아래와 같은 수식으로 표현 (추정하는 모수가 $\theta$)
$ P[L(\widehat{\theta}) \leq \theta \leq U(\widehat \theta)]= 1 - \alpha$
- 만약, 모평균 $\mu$를 추정한다면, 표본평균이 $\overline x$이고 표준오차가 $sd$고 하면 신뢰구간은 아래와 같음
$\overline{x} - z\cdot sd \leq \mu \leq \overline x + z \cdot sd$
- 구간추정에서 신뢰구간의 의미는 아래의 이미지로 이해 할 수 있음
$P(z \leq Z \leq z)$의 CI 가 0.95일 때, $z=1.96$
1) 모집단의 분산을 아는 경우
$X_1,X_2,\cdot\cdot\cdot,X_n \sim idd$ $N(\mu,\sigma^2)$, $\widehat{\mu} \overline {X}\sim N\left(\mu,\frac{\sigma^2}{n}\right)$, $Z\sim N(0,1)$
$\mu$의 95% 신뢰구간 : $(\overline x - z_{\alpha/2}*\frac{\sigma}{\sqrt n} \leq \mu \leq \overline x + z_{\alpha/2}1*\frac{\sigma}{\sqrt n})$
$P[-.196 \leq Z \leq 1.96] = 0.95$
2) 모집단의 분산을 모르는 경우(t-분포 사용)
$X_1,X_2,\cdot\cdot\cdot,X_n \sim idd$ $N(\mu, \sigma^2)$, $T=\frac{\overline{X}-\mu}{s/\sqrt{n}} \sim t(n-1)$
- $\mu$ 95% 신뢰구간 계산
3) 표본의 크기 결정
- 허용오차(permissible error): 추정한 값이 틀려도 허용할 수 있는 오차
- 정규분포의 신뢰구간을 통해 허용 오차를 계산
$n=\left(\frac{z_{\alpha/2}*\sigma}{d} \right)^2 $, $d$: 허용 오차
$P(|\overline{X}-\mu| \leq d) = 1-\alpha $
$d=z_{\alpha/2}*\frac{\sigma}{\sqrt{n}}$
$n=\left (\frac {z_{\alpha/2}*\sigma}{d} \right)^2$
📈 모비율 추정
1. 모비율의 점추정
- 비율에 대한 추정으로 우리가 원하는 속성(class)에 속하면, ‘1’ 아니면 ‘0’일 때, 1의 속성을 갖는 것의 개수를 X라고 하면
$ X \sim B(n,p) $
- 이 때 모비율의 점추정량을 표본 비율(sample proportion)이라고 함 (\widehat p = X/n)
예시) A대학의 취업에 성공한 학생의 비율은 몇%일가?
![](https://blog.kakaocdn.net/dn/JvZr2/btrCsjiR7zS/Rok8ePuzHGLiUlh6Tn7saK/img.png)
tip) 소표본의 $\sigma$를 모를 경우만 t를 쓰고, 나머지는 z를 쓰지만 t를 다써도 문제는 없다.
2. 모비율의 구간 추정
- 모비율 구간 추정에서 정규분포의 근사가 가능한 대표본은 보통 $np > 5$, $n(1-p)>5$를 동시에 만족 해야 한다.
- N이 충분히 크면 C.L.T에 의해서,
$Z=\frac{\widehat p -p}{\sqrt{p(1-p)/n}} \sim N(0,1) $
$$P\left (-z_\frac{\alpha}{2} \leq Z \leq z_\frac{\alpha}{2}\right)=1-\alpha$$
1) 모평균 차이의 추정(점추정)
$$E(\overline {X_1} -\overline {X_2})= E({\overline {X_1}}) - E({\overline {X_2}}) = \mu_1-\mu_2$$
$$Var(\overline {X_1} -\overline {X_2})= Var({\overline {X_1}}) - Var({\overline {X_2}}) = \frac{\sigma_1^2}{n_1}+ \frac{\sigma_2^2}{n_2}$$
2) 모평균 차이의 추정(구간추정: 대표본)
3) 모평균 차이의 추정(구간추정: 소표본, 모분산을 모르는 경우)
- 두 모집단의 분산을 아는 경우에는 대표본과 동일하게 추정 가능하지만,
- 모르는 경우에는 등분산 가정이 필요(두 모집단의 분산이 같다는 가정이 필요 $\sigma_1^2 =\sigma_2^2 =\sigma^2$)
- 합동 분산 추정량(pooled variance estimator): 공통 분산의 추정량
4) 모비율 차이의 추정(점추정)
5) 모비율 차이의 추정(구간추정)
'통계 & 수학 > 통계학' 카테고리의 다른 글
[통계] 범주형 자료 분석 (0) | 2022.05.18 |
---|---|
[통계] 가설 검정 (0) | 2022.05.18 |
[통계] 모집단과 표본 분포 (0) | 2022.05.18 |
[통계] 확률분포 - 연속형 확률 분포 (0) | 2022.05.17 |
[통계] 확률분포 - 이산형 확률분포 (0) | 2022.05.17 |