deda
Deda의 데이터 디자인
deda
전체 방문자
오늘
어제
  • 분류 전체보기 (121)
    • Python (27)
      • Python 기초 (17)
      • Python 데이터분석 (10)
    • SQL (9)
    • Coding test (54)
      • Python 기초문제 (45)
      • LeetCode (9)
    • BigData (2)
    • ZeroBase (3)
    • UX (0)
    • Business Review (1)
    • 통계 & 수학 (17)
      • 통계학 (14)
      • 수학 (3)
    • 스터디 (6)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 군수열
  • pandas
  • 계산기
  • 마이데이터
  • 데이터사이언티스트
  • 데이터분석가
  • 릿코드
  • 프로그래밍
  • 최소공배수
  • 미니콘다
  • 코딩
  • SQL
  • BMI
  • 팩토리얼
  • 데이터분석
  • 파이썬
  • 등차수열
  • 데이터엔지니어
  • 계차수열
  • 부트캠프
  • 네카라쿠배
  • 함수
  • 제로베이스
  • 소인수분해
  • 통계
  • 등비수열
  • 기초수학
  • 모듈
  • 빅데이터
  • matplotlib

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
deda

Deda의 데이터 디자인

[통계] 확률분포 - 연속형 확률 분포
통계 & 수학/통계학

[통계] 확률분포 - 연속형 확률 분포

2022. 5. 17. 21:52

 

 

🎯 연속형 확률 분포

- 균일분포, 정규분포, 감마분포, 지수분포, 카이제곱분포, 베타분포

 


 

1​. 확률 밀도 함수(Probability density fuction:pdf)

- 연속형 확률 변수 X에 대해서 함수 q  가 아래의 조건을 만족

 

 

  (1) 모든 X에 대하여 $f(x)\geq 0$

  (2) $P(x\in(-\infty,\infty))=\int_{-\infty}^{\infty}f(x)d(x)=1$

  (3) $P(a \leq X\leq b)=\int_{a}^{b}f(x) dx$

 

 

1) 확률 밀도 함수의 성질

  (1) $P(X=a)=P(a \leq X \leq b)=\int_{a}^{b}f(x)dx=0$

  (2) $P(a \leq X\leq b)P(a \leq X < b)=P(a < X \leq b)=P(a <X<b)$

 

 

2) 확률 밀도 함수의 평균과 분산

 

 $ E(X)=\int_{-\infty}^{\infty}f(x)d(x)$

 

 $ Var(x) = E(X-\mu)^2=\int_{-\infty}^{\infty}(x-\mu)^2f(x)dx$

 


 

2. 누적 분포 함수(Cumulative density function:cdf)

- 확률 밀도 함수에서 적분하면 누적 분포 함수가 된다.

 

 

$F(x) = P[X]\leq\int_{-\infty}^{x}f(x)dx $

 

$\frac{d}{dx}F(x)=f(x)$

 

 

* 누적 분포 함수의 성질

  (1) $0 \leq F(x) \leq 1$

  (2) 만약 $b\geq a, F(b) \geq F(a)$

  (3) $F(b) - F(a) =P(a \leq X \leq b)$


 

3. 균일 분포 (Uniform distribution)

- 확률 변수 X가 a와 b 사이에서 아래와 같은 확률 밀도 함수(pdf)를 가짐.

 

$f(x) = \begin{cases}\frac{1}{b-a} & a \leq x \leq b\\0, & otherwise\end{cases}$

 

$cdf$      $f(x) = \begin{cases}0, &x\leq a\\\frac{1}{b-a} & a \leq x \leq b\\1, & x \geq b\end{cases}$

 

 

 

 

* 균일 분포의 평균과 분산

 

 $ E[X] = \int_{a}^{b}xf(x)dx=\int_{a}^{b}x\frac{1}{b-a}dx=  \frac{b+a}{2}$

 

 $ E[X^2] =\int_{a}^{b} x^2\frac{1}{b-a}=\frac{b^3-a^3}{3(b-a)}=\frac{(b^2+ab+a^2)}{3}$

 

 $ Var[X] = E[X^2]-(E[X])^2=\frac{(b^2+ab+a^2)}{3}-\left(\frac{b+a}{2}\right)^2$

$=\frac{(b-a)^2}{12}$


 

4. 정규분포 (Normal distribution)

- 확률 변수가 X가 평균이 $\mu$이고, 분산이 $\sigma^2$인 정규분포를 따를 때 아래와 같음

 

 

$f(x) = \frac{1}{\sqrt{2\pi\sigma}}e^{\frac{1}{2\sigma^2}{(x-\mu)^2}}$

 

$-\infty < x < \infty,  -\infty < \mu < \infty$

 

$X\sim N(\mu,\sigma^2)$

 

 

* 평균, 분산

$E[X]=\mu$

$Var[X]=\sigma^2$

 


 

5. 표준 정규분포 (Standard normal distribution)

- 확률 변수가 $X \sim N(\mu,\sigma^2)$의 정규 분포를 따르고,

- 확률 변수 $Z = \frac {X-\mu}{\sigma}$라고 할때 확률 변수 $Z \sim N(0,1)$

 

 

$f(x) = \frac{1}{\sqrt{2\pi\sigma}}e^{\frac{1}{2\sigma^2}{(x-\mu)^2}}$

 

$\varphi(Z) = \frac {1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2}$

 

$\varphi(Z) = P[Z\leq z]$

 

 

표준정규분포표 - 위키백과, 우리 모두의 백과사전

표준정규분포표(standard normal table)[1]는 정규 분포의 누적 분포 함수 값인 Φ 값에 대한 표이다. 통계가 표준 정규 분포의 값 아래, 또는 위 값 사이에서 그리고 확장하여 모든 정규 분포에서 관찰

ko.wikipedia.org

 

* 정규 분포의 성질

 (1) $X \sim N(\mu,\sigma^2)$ 일 때, 임의의 상수 a, b에 대해 $aX + b \sim N(a\mu+b,a^2\sigma^2)$

 (2) $X \sim N(\mu,\sigma^2)$ 일 때, $z=\frac{X-\mu}{\sigma}, z \sim N(0,1)$

 (3) $X \sim N(\mu_1,\sigma^2_1)$, $Y \sim N(\mu_2,\sigma^2_2)$이고, X와 Y가 독립일 때,

        $aX + bY \sim N(a\mu_1+b\mu_2,$   $a^2\sigma^2_1+b^2\sigma^2_2)$

 


 

6. 이항 분포의 정규 근사

- $X \sim B(n,p)$일 때, 확률 변수 X는 n이 충분히 크면 근사적으로 정규분포 $X \sim N(np, np(1-p))$

 

$Z = \frac {x-np}{\sqrt{np(1-p)}} \sim N(0,1)$

 


 

7. 지수 분포(Exponential distribution)

- 단위 시간당 발생할 확률 $\lambda$인 어떤 사건의 횟수가 포아송 분포를 따를 때, 어떤 사건이 처음 발생 할때까지 걸린 시간 확률 변수 X

- 연속 되는 사건의 사이의 대기 시간도 지수 분포

ex) 버스 정류장에서 100번 버스가 도착하는 횟수가 포아송 분포를 따른다면, 첫 번째 버스가 도착할 때까지 대기 시간의 분포가 지수분포

ex) 두 번째 버스가 도착하고 세 번째 버스가 도착할 때까지 대기 시간의 분포도 지수 분포

 

1) 지수분포의 pdf 

$f(x)=\lambda e^{-\lambda x},$    $ x \geq 0$

$X \sim Exp(\lambda)$

 

 

2) 지수분포의 cdf

$F(x) = 1 - e^{-\lambda x},$     $x \geq 0$

 

 

3) 지수 분포의 평균과 분산

$E[X] = \frac {1}{\lambda}$

$Var[X] = \frac {1}{\lambda^2}$

 

 

 

4) 지수 분포의 무기억성(Memoryless Property)

- 어떤 시점 부터 소요되는 시간은 과거 시간에 영향을 받지 않음

    ex) 버스를 기다리는 대기시간은 먼저 기다린 사람과 확률이 같음

- 전구를 한달 동안 사용 했을 때 남은 수명은 한달 간 사용했던 영향을 받지 않음

- 즉 새 전구와 한달 간 사용한 전구의 남은 수명은 같다고 생각함 

- 이런 문제로 실제 적용에 문제가 있고, 생존 분석에서는 Weibull 분포 또는 log-normal 분포를 사용하여 예측

 

$P(X>a+t|X>a) = P(X>t),$       $a \geq 0,$        $t \geq 0$

 

$\frac{P(X > a+t)}{P(X>a)} = \frac{1-P(X \leq a+t)}{1-P(X \leq a)}  = \frac{1-(1-e^{-\lambda(a+t)})}{1-(1-e^{- \lambda a})}$

$=e^{-\lambda t} = P(X \geq t)$

'통계 & 수학 > 통계학' 카테고리의 다른 글

[통계] 추정  (0) 2022.05.18
[통계] 모집단과 표본 분포  (0) 2022.05.18
[통계] 확률분포 - 이산형 확률분포  (0) 2022.05.17
[통계] 확률 변수  (0) 2022.05.17
[통계] 확률  (0) 2022.05.17
    '통계 & 수학/통계학' 카테고리의 다른 글
    • [통계] 추정
    • [통계] 모집단과 표본 분포
    • [통계] 확률분포 - 이산형 확률분포
    • [통계] 확률 변수
    deda
    deda
    데이터 분석 / 파이썬 / UX / 정량리서치

    티스토리툴바