deda
Deda의 데이터 디자인
deda
전체 방문자
오늘
어제
  • 분류 전체보기 (121)
    • Python (27)
      • Python 기초 (17)
      • Python 데이터분석 (10)
    • SQL (9)
    • Coding test (54)
      • Python 기초문제 (45)
      • LeetCode (9)
    • BigData (2)
    • ZeroBase (3)
    • UX (0)
    • Business Review (1)
    • 통계 & 수학 (17)
      • 통계학 (14)
      • 수학 (3)
    • 스터디 (6)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 파이썬
  • 등비수열
  • 함수
  • 데이터분석가
  • 빅데이터
  • 코딩
  • matplotlib
  • 데이터사이언티스트
  • 제로베이스
  • 최소공배수
  • 데이터엔지니어
  • BMI
  • 릿코드
  • 네카라쿠배
  • 계차수열
  • 부트캠프
  • 데이터분석
  • pandas
  • SQL
  • 모듈
  • 마이데이터
  • 군수열
  • 팩토리얼
  • 등차수열
  • 미니콘다
  • 통계
  • 계산기
  • 프로그래밍
  • 기초수학
  • 소인수분해

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
deda

Deda의 데이터 디자인

[통계] 모집단과 표본 분포
통계 & 수학/통계학

[통계] 모집단과 표본 분포

2022. 5. 18. 01:41

 

🎯 모집단과 표본

1. 표본추출(Sampling)

- 모집단으로 부터 표본을 추출 하는 것, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론

 

 

1) 복원추출(Sampling with replacement)

- 모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출 될 수 있음 

 

2) 비복원추출(Sampling without replacement)

- 모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법

 

3) Random Sampling

- 모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 함, 각 개체가 모두 동일한 확률로 추출하는 방법

 


 

2. 불균형 데이터의 문제(Imbalanced Data)

- 데이터가 불균형 데이터 일 경우 문제가 생김
- 예측모형을 만드는 목적 :  관심이 있는 대상이 발생할 확률을 예측하는 경우

- 예측 대상이 전체 대비 아주 낮다면? 모형의 성능이 괜찮을가? (ex: 신용 평가 모형 개발, 제조 불량 예측 등)

 

 

1) Sampling 기법(관심의대상의아주비율이낮은경우)

 (1) Over Sampling

 - 타겟 데이터 적은 class의 수를 많은 class의 비율만큼 증가 시킴(일정 비율로 복원추출 하는 개념)

 - 과도적합의 문제 발생할 수 있음

 

 (2) Under Sampling 

 - 타겟 데이터의 많은 class의 수를 적은 class의 비율만큼 감소 시킴
 -
의로 뽑은 데이터가 biased(편향)될 수 있고, 모형의 성능이 떨어질 수 있음


2) 모델을 통한 성능 개선(ex: Cost-sensitive learning) 


 

📍 표본 분포

1. 통계량(statistics)

- 표본에 기초하여 계산되는 수치 함수

 

$\overline{X} = \frac{x_1+x_2+\cdot\cdot\cdot+x_n}{n},$        $s^2 = \frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2$


 

2. 표본 분포(Sampling distribution)

- 통계량들이 이루는 분포를 표본 분포


 

3. 표본 평균(Sample mean) 

 

$\overline{X} = \frac{1}{n}\sum_{i=1}^nX_i = \frac{1}{n}(x_1+x_2+\cdot\cdot\cdot+x_n)$

 

 

 1) 표본평균 $\overline{X}$의 기대값, 분산

 

$E[\overline{X}]= \frac {1}{n}(\mu+\mu+\cdot\cdot\cdot+\mu) = \mu$

 

$Var[\overline{X}]= \frac {1}{n^2}(Var[x_1]+Var[x_2]+\cdot\cdot\cdot+Var[x_n])$

 

$= \frac {1}{n^2}(\sigma^2+\sigma^2+\cdot\cdot\cdot+\sigma^2)=\frac{\sigma^2}{n}$

 

 

 2) 모집단의 분포가 $N(\mu,\sigma^2)$이라고 할 때,

 - 확률 표본 $X_1, X_2, X_3...,X_n$은 $\sim$ idd $N(\mu,\sigma^2)$, (independent and identically distribution)

 

 - $\overline{X} \sim N (\left (\mu,\frac{\sigma^2}{n} \right),$         $Z \sim N(0,1)$


 

📐 중심극한 정리(central limit theorem)

- 평균이 $\mu$ 이고 $\sigma^2$인 임의의 모집단에서 랜덤 표본 $X_1,X_2,...,X_n$을 추출할 때

- 표본의 크기 $n$이 충분히 크면($n \geq 30$) 표본 평균 $\overline{X}$는 근사적으로 정규분포 $N(\mu,\left(\frac{\sigma^2}{n}\right))$따름


 

📈 카이제곱 분포(Chi-square distribution)

- 확률 변수 $Z_2^1, Z_2^2,...,Z_2^n$가 표준 정규 분포를 따른다면, 확률 변수 $Z$는 $Z_2^1, Z_2^2,...,Z_2^n$

- 카이제곱 분포는 감마 분포에서 $\alpha = \frac {v}{2}$, $\lambda =2$와 같음

- 카이제곱 분포는 범주형 자료 분석에서 활용

- $Z \sim \chi^2(v), Z$가 카이제곱 분포를 따를 때,

 

$f(x:v) = \frac{1}{2^{\frac{v}{2}}\Gamma(\frac{v}{2})}x^{\frac{v}{2}-1}e^{-\frac{x}{2}}$,    $x>0$

 

$E[X]=v$,       $Var[X] = 2v$

 

 

 * 자유도(degree of freedom)

 - 표본수-제약조건의 수 또는 표본수-추정해야 하는 모수의 수를 의미하며 일반적으로 n-1을 사용함

 - 카이제곱 분포는 자유도 v의 크기에 따라 모양이 달라진다. 자유도가 커질수록 분포가 좌우 대칭 형태로 됨
 - 카이제곱 분포는 자유도가 커지면서 표준정규 분포에 근사하며, $v \geq 30$이면, 확률을 근사적으로 정규분포로 구할 수 있음 

   ex) 표본의 크기가 5이고, 표본 평균이 3로 정해졌다면, 숫자 4개는 자유롭게 정할 수 있으나 마지막 하나의 숫자는 나머지 네 개의 숫자에의해 결정. 1,2,3,4를골랐다면 마지막 숫자는 자동으로 5가 되야 평균이 5로 정해져있음


 

📉 T분포(t-distribution)

- $Z \sim N(0,1)$ 을 따르고, $Y \sim \chi^2$ 일때, $T=\frac{Z}{\sqrt{Y/v}}$

 

- 만약 확률 변수 X가 정규 분포를 따르고 모표준편차 $\sigma$를 안다면,

 

$Z=\frac{X-\mu}{\sigma/n}$ $\sim N(0,1)$

 

- 만약 모표준편차 $\sigma$를 모른다면, $\sigma$를 대신해서 표본표준편차 s를 이용하여 확률변수 Z를 정의

 

$t=\frac{X-\mu}{\sigma/n}$ $\sim t(v)$, 여기서 $v$의 자유도는 n-1

 

- $X_1, X_2, X_3...,X_n$은 $\sim$ idd $N(\mu,\sigma^2)$이면 $Z=\frac{X-\mu}{\sigma/n}$ $\sim N(0,1)$

 

- $Y \sim z = \frac{(n-1)S^2}{\sigma^2/n}$ $\sim \chi^2(n-1)$

 

$T = \frac{\overline{X}-\mu}{S/\sqrt{n}}$, t의 자유도는 n-1

 

 


📊 F분포(F distribution)

- 서로 독립인 두 정규모집단의 분산 또는 표준편차들의 비율에 대한 통계적 추론, 분산 분석에 활용

- $Y_1 \sim \chi^2(v_2)$,  $Y_2 \sim \chi^2(v_2)$ 이면, $F= \sim \frac {Y_1/v_1}{Y_2/v_2}$,  $F>0$

- 두 개의 독립적인 모집단$(Y_1,Y_2)$으로부터 각각 표본을 추출했을 때

 

$Y_1 \sim \frac {(n-1)S_1^2}{\sigma_1^2}\sim \chi^2(n_1-1)$,   $Y_1 \sim \frac {(n-1)S_2^2}{\sigma_2^2}\sim \chi^2(n_2-1)$

 

$F=\frac {Y_1/v_1}{Y_2/v_2} = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1 -1,n_2-2)$

 

'통계 & 수학 > 통계학' 카테고리의 다른 글

[통계] 가설 검정  (0) 2022.05.18
[통계] 추정  (0) 2022.05.18
[통계] 확률분포 - 연속형 확률 분포  (0) 2022.05.17
[통계] 확률분포 - 이산형 확률분포  (0) 2022.05.17
[통계] 확률 변수  (0) 2022.05.17
    '통계 & 수학/통계학' 카테고리의 다른 글
    • [통계] 가설 검정
    • [통계] 추정
    • [통계] 확률분포 - 연속형 확률 분포
    • [통계] 확률분포 - 이산형 확률분포
    deda
    deda
    데이터 분석 / 파이썬 / UX / 정량리서치

    티스토리툴바