분류 전체보기

    [통계] 상관분석

    [통계] 상관분석

    🎯상관 분석 1. 상관 관계(correlation coefficient) - 두 변량 사이에 한쪽이 증가하면, 다른 쪽도 증가(또는 감소) 하는 관계 - 두 변수 간의 함수 관계가 선형적인 관계가 있는지 파악할 수 있는 측도 - 상관관계가 있다고 해서 인과관계인 것은 아님 $$\rho= Corr(X,Y) = \frac{cov(X,Y)}{\sqrt{Var(X)}\sqrt{var(Y)}}$$ 1) 상관계수 $ -1 \leq \rho \leq 1$ 2) 상관계수가 1에 가까울 수록 양의 상관 관계가 강함 3) 상관계수가 -1에 가까울 수록 음의 상관 관계가 강함 4) 상관계수가 0에 가까울 수록 두 변수 간의 상관 관계가 존재하지 않음 5) 상관계수가 0이라는 것은 두 변수 간에 선형관계가 존재하지 않는다는..

    [통계] 범주형 자료 분석

    [통계] 범주형 자료 분석

    📌 적합도 검정 1. 범주형 자료(categorical data) - 관측된 결과를 어떤 속성에 따라 몇 개의 범주로 분류시켜 도수로 주어진 데이터 1) 범주형 자료 분석(categorical data analysis) - 범주형자료에대한통계적추론방법 - 범주형 자료 분석은 카이제곱 검정으로 추론함 ex) 대선에서 각 정당의 연령대별 지지율이 지난 대선의 지지율과 동일한가? ex) 성별에 따라서 선호하는 핸드폰 회사가 동일한가? 2) t-test와 카이제곱 검정의 차이 (1) t-test : 연속형 변수의 차이에 대한 검정 (2) 카이제곱 검정 : 명목형 변수에 대한 검정 2. 적합도 검정(goodness of fit test) - 관측된값들이추론하는분포를따르고있는지검정,한개의요인을대상으로검정 ex) 멘..

    [통계] 가설 검정

    [통계] 가설 검정

    🔍 가설 검정 - 가설 검정 = 가설(Hypothesis) + 검정(Testing) 1. 가설(hypothesis) - 주어진 사실 또는 조사하려고 하는 사실에 대한 주장 또는 추측 - 통계학에서는 특히 모수를 추청 할 때, 모수가 어떠하다는 증명하고 싶은 추측이나 주장 1) 귀무 가설(Null hypothesis : $H_0$) - 기존의 사실(아무것도 없다, 의미가 없다) - 대립가설과 반대되는 가설로 연구하고자 하는 가설의 반대의 가설로 귀무 가설은 연구 목적이 아님 ex) $H_0$ : 코로나백신이효과가없다, $H_0 : \mu =0$ 2) 대립 가설(Alternative hypothesis : $H_1$) - 데이터로 부터 나온 주장하고 싶은 가설 또는 연구의 목적으로 귀무가설의 반대 ex) $..

    [통계] 추정

    [통계] 추정

    📊​추정 1. 추정(estimation) - 모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것 2. 추정량(estimator) - 표본 평균으로 모평균을 추정할 때 표본 평균 📌 점추정(point estimation) - 모수를 하나의 특정값으로 추정 하는 방법 1. 일치성(Consistency) - 표본의 크기가 모집단의 크기에 근접해야 함 - 표본이 크기가 크면 클수록(모집단에 가까울 수록) 추정량의 오차가 작아짐 2. 불편성(Unbiased estimator) - 추정량이 모수와 같아야 함 - 불편 추정량 : 모수가 $\theta$이고 추정량이 $\widehat{\theta}$라고 정의하면, $E[\widehat{\theta}]=\theta$ - 즉, $E[\wi..

    [통계] 모집단과 표본 분포

    [통계] 모집단과 표본 분포

    🎯 모집단과 표본 1. 표본추출(Sampling) - 모집단으로 부터 표본을 추출 하는 것, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론 1) 복원추출(Sampling with replacement) - 모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출 될 수 있음 2) 비복원추출(Sampling without replacement) - 모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법 3) Random Sampling - 모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 함, 각 개체가 모두 동일한 확률로 추출하는 방법 2. 불균형 데이터의 문제(Imbalanced Data) - 데이터가 불균형 데이터 일 경우..

    [통계] 확률분포 - 연속형 확률 분포

    [통계] 확률분포 - 연속형 확률 분포

    🎯 연속형 확률 분포 - 균일분포, 정규분포, 감마분포, 지수분포, 카이제곱분포, 베타분포 1​. 확률 밀도 함수(Probability density fuction:pdf) - 연속형 확률 변수 X에 대해서 함수 q 가 아래의 조건을 만족 (1) 모든 X에 대하여 $f(x)\geq 0$ (2) $P(x\in(-\infty,\infty))=\int_{-\infty}^{\infty}f(x)d(x)=1$ (3) $P(a \leq X\leq b)=\int_{a}^{b}f(x) dx$ 1) 확률 밀도 함수의 성질 (1) $P(X=a)=P(a \leq X \leq b)=\int_{a}^{b}f(x)dx=0$ (2) $P(a \leq X\leq b)P(a \leq X < b)=P(a < X \leq b)=P(a

    [통계] 확률분포 - 이산형 확률분포

    [통계] 확률분포 - 이산형 확률분포

    🎯 이산형 확률 분포(probability distribution) - 확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함수 - 베르누이 분포, 이항분포, 포아송분포, 기하분포, 음이항분포, 초기하분포 1. 이산형 균등 분포(discrete uniform distribution) - 확률 변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포 ex) 주사위를 던졌을 때 나오는 숫자 $ f_{x}(x) = P(X=x) = \frac{1}{N} $ $where$ $x = 1,2,\cdot\cdot\cdot,N$ 이산형 균등분포의 기대값 : $\frac{n+1}{2}$ 분산 : $\frac{n^{2}-1}{12}$ 기대값 : $E[X] = \sum xf(x) = \f..

    [통계] 확률 변수

    [통계] 확률 변수

    🔍 확률 변수(random variable) - 표본공간에서 각 사건에 실수를 대응시키는 함수를 확률 변수 - 확률 변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변함 - 일반적으로 확률 변수는 대문자로 표현하며, 확률변수의 특정값을 소문자로 표현 - 확률변수는 X, Y등 대문자로 표현하며, 확률 변수의 특정값은 x, y등 소문자로 표현 1) 이산 확률 변수(discrete random variable) : 셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우 2) 연속 확률 변수(continuous random variable) : 연속형 또는 무한대와 같이 셀 수 없는 경우 1. 확률 변수의 평균(기대값) 2. 확률 변수의 분산 3. 기대값의 성질(a,b가 상수, X..