[통계] 모집단과 표본 분포

🎯 모집단과 표본

1. 표본추출(Sampling)

- 모집단으로 부터 표본을 추출 하는 것, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론

1) 복원추출(Sampling with replacement)

- 모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출 될 수 있음

2) 비복원추출(Sampling without replacement)

- 모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법

3) Random Sampling

- 모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 함, 각 개체가 모두 동일한 확률로 추출하는 방법

2. 불균형 데이터의 문제(Imbalanced Data)

- 데이터가 불균형 데이터 일 경우 문제가 생김
- 예측모형을 만드는 목적 : 관심이 있는 대상이 발생할 확률을 예측하는 경우

- 예측 대상이 전체 대비 아주 낮다면? 모형의 성능이 괜찮을가? (ex: 신용 평가 모형 개발, 제조 불량 예측 등)

1) Sampling 기법(관심의대상의아주비율이낮은경우)

(1) Over Sampling

- 타겟 데이터 적은 class의 수를 많은 class의 비율만큼 증가 시킴(일정 비율로 복원추출 하는 개념)

- 과도적합의 문제 발생할 수 있음

(2) Under Sampling

- 타겟 데이터의 많은 class의 수를 적은 class의 비율만큼 감소 시킴
- 의로 뽑은 데이터가 biased(편향)될 수 있고, 모형의 성능이 떨어질 수 있음

2) 모델을 통한 성능 개선(ex: Cost-sensitive learning)

📍 표본 분포

1. 통계량(statistics)

- 표본에 기초하여 계산되는 수치 함수

$\overline{X} = \frac{x_1+x_2+\cdot\cdot\cdot+x_n}{n},$ $s^2 = \frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2$

2. 표본 분포(Sampling distribution)

- 통계량들이 이루는 분포를 표본 분포

3. 표본 평균(Sample mean)

$\overline{X} = \frac{1}{n}\sum_{i=1}^nX_i = \frac{1}{n}(x_1+x_2+\cdot\cdot\cdot+x_n)$

1) 표본평균 $\overline{X}$의 기대값, 분산

$E[\overline{X}]= \frac {1}{n}(\mu+\mu+\cdot\cdot\cdot+\mu) = \mu$

$Var[\overline{X}]= \frac {1}{n^2}(Var[x_1]+Var[x_2]+\cdot\cdot\cdot+Var[x_n])$

$= \frac {1}{n^2}(\sigma^2+\sigma^2+\cdot\cdot\cdot+\sigma^2)=\frac{\sigma^2}{n}$

2) 모집단의 분포가 $N(\mu,\sigma^2)$이라고 할 때,

- 확률 표본 $X_1, X_2, X_3...,X_n$은 $\sim$ idd $N(\mu,\sigma^2)$, (independent and identically distribution)

- $\overline{X} \sim N (\left (\mu,\frac{\sigma^2}{n} \right),$ $Z \sim N(0,1)$

📐 중심극한 정리(central limit theorem)

- 평균이 $\mu$ 이고 $\sigma^2$인 임의의 모집단에서 랜덤 표본 $X_1,X_2,...,X_n$을 추출할 때

- 표본의 크기 $n$이 충분히 크면($n \geq 30$) 표본 평균 $\overline{X}$는 근사적으로 정규분포 $N(\mu,\left(\frac{\sigma^2}{n}\right))$따름

📈 카이제곱 분포(Chi-square distribution)

- 확률 변수 $Z_2^1, Z_2^2,...,Z_2^n$가 표준 정규 분포를 따른다면, 확률 변수 $Z$는 $Z_2^1, Z_2^2,...,Z_2^n$

- 카이제곱 분포는 감마 분포에서 $\alpha = \frac {v}{2}$, $\lambda =2$와 같음

- 카이제곱 분포는 범주형 자료 분석에서 활용

- $Z \sim \chi^2(v), Z$가 카이제곱 분포를 따를 때,

$f(x:v) = \frac{1}{2^{\frac{v}{2}}\Gamma(\frac{v}{2})}x^{\frac{v}{2}-1}e^{-\frac{x}{2}}$, $x>0$

$E[X]=v$, $Var[X] = 2v$

* 자유도(degree of freedom)

- 표본수-제약조건의 수 또는 표본수-추정해야 하는 모수의 수를 의미하며 일반적으로 n-1을 사용함

- 카이제곱 분포는 자유도 v의 크기에 따라 모양이 달라진다. 자유도가 커질수록 분포가 좌우 대칭 형태로 됨
- 카이제곱 분포는 자유도가 커지면서 표준정규 분포에 근사하며, $v \geq 30$이면, 확률을 근사적으로 정규분포로 구할 수 있음

ex) 표본의 크기가 5이고, 표본 평균이 3로 정해졌다면, 숫자 4개는 자유롭게 정할 수 있으나 마지막 하나의 숫자는 나머지 네 개의 숫자에의해 결정. 1,2,3,4를골랐다면 마지막 숫자는 자동으로 5가 되야 평균이 5로 정해져있음

📉 T분포(t-distribution)

- $Z \sim N(0,1)$ 을 따르고, $Y \sim \chi^2$ 일때, $T=\frac{Z}{\sqrt{Y/v}}$

- 만약 확률 변수 X가 정규 분포를 따르고 모표준편차 $\sigma$를 안다면,

$Z=\frac{X-\mu}{\sigma/n}$ $\sim N(0,1)$

- 만약 모표준편차 $\sigma$를 모른다면, $\sigma$를 대신해서 표본표준편차 s를 이용하여 확률변수 Z를 정의

$t=\frac{X-\mu}{\sigma/n}$ $\sim t(v)$, 여기서 $v$의 자유도는 n-1

- $X_1, X_2, X_3...,X_n$은 $\sim$ idd $N(\mu,\sigma^2)$이면 $Z=\frac{X-\mu}{\sigma/n}$ $\sim N(0,1)$

- $Y \sim z = \frac{(n-1)S^2}{\sigma^2/n}$ $\sim \chi^2(n-1)$

$T = \frac{\overline{X}-\mu}{S/\sqrt{n}}$, t의 자유도는 n-1

📊 F분포(F distribution)

- 서로 독립인 두 정규모집단의 분산 또는 표준편차들의 비율에 대한 통계적 추론, 분산 분석에 활용

- $Y_1 \sim \chi^2(v_2)$, $Y_2 \sim \chi^2(v_2)$ 이면, $F= \sim \frac {Y_1/v_1}{Y_2/v_2}$, $F>0$

- 두 개의 독립적인 모집단$(Y_1,Y_2)$으로부터 각각 표본을 추출했을 때

$Y_1 \sim \frac {(n-1)S_1^2}{\sigma_1^2}\sim \chi^2(n_1-1)$, $Y_1 \sim \frac {(n-1)S_2^2}{\sigma_2^2}\sim \chi^2(n_2-1)$

$F=\frac {Y_1/v_1}{Y_2/v_2} = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1 -1,n_2-2)$

'통계 & 수학 > 통계학' 카테고리의 다른 글

[통계] 가설 검정 (0)	2022.05.18
[통계] 추정 (0)	2022.05.18
[통계] 확률분포 - 연속형 확률 분포 (0)	2022.05.17
[통계] 확률분포 - 이산형 확률분포 (0)	2022.05.17
[통계] 확률 변수 (0)	2022.05.17