통계 & 수학/통계학

    [통계] 시계열 분석

    [통계] 시계열 분석

    ⏱​시계열 분석(time series analysis) - 시계열(시간의 흐름에 따라 기록된 것) 자료(data)를 분석하고 여러 변수들간의 인과관계를 분석 1. 시계열 데이터 - 시계열 데이터는 시간을 기준으로 관측된 데이터 - 보통 일 → 주 → 월 → 분기 → 년 또는 Hour 등 시간의 경과에 따라 관측 ex) GDP, 주가, 거래액, 매출액, 승인금액 등을 시간에 흐름에 따라 정의한 데이터 1) 연속시계열 - 자료가 연속적으로 생성 - 대부분의 데이터 형태가 연속형이나 이산형 정의하여 분석 2) 이산형 시계열 - 일정 시차(간격)를 두고 관측되는 형태의 데이터 - 대부분 이산형 데이터를 분석 2. 시계열 데이터의 목적 - 예측 : 금융시장 예측, 수요 예측등 미래의 특정 시점에 대한 관심의 대상..

    [통계] 분산 분석

    [통계] 분산 분석

    🎯 분산분석(analysis of variance : ANOVA) - 셋 이상의 모집단의 평균 차이를 검정 cf. t-test : 두개의 모집단의 평균 차이를 검정 1. 실험계획법(experimental design) - 모집단의 특성에 대하여 추론하기 위해, 특별한 목적성을 가지고 데이터를 수집하기 위한 실험 설계 - 반응변수 : 관심의 대상이 되는 변수 - 요인/인자(Factor) : 실험 환경 또는 조건을 구분하는 변수로 실험에 영향을 주는 변수 - 인자수준 : 인자가 취하는 개별 값(처리:treatment) 2. 왜 분산분석일가? - 모집단의 평균들을 비교하기 위하여 특성값의 분산 또는 변동을 분석하는 방법 - 실험을 통해 얻은 편차의 제곱합을 통해 평균의 차이를 검정 3. 분산분석의 기본 가정..

    [통계] 다중 회귀분석

    [통계] 다중 회귀분석

    🎯다중 회귀 분석(multiple regression analysis) - 2개 이상의 독립변수로 종속 변수를 예측하는 회귀 모형을 만드는 방법 1. 변수 선택법 1) 전진선택법(forward selection) - 독립변수를 1개부터 시작하여 가장 유의한 변수들부터 하나씩 추가하면서 모형의 유의성을 판단 2) 후진 제거법(backward selection) - 모든 독립변수를 넣고 모형을 생성한 후, 하나씩 제거하면서 판단 3) 단계접 방법(stepwise selection) - 위의 두가지 방법을 모두 사용하여 변수를 넣고 빼면서 판단 2. 더미 변수(Dummy variable) - 값이 ‘0‘ 또는 ‘1’로 이루어진 변수 - 범주형 변수를 사용하기 위해서는 더미변수가 필요함 ex) 사는 지역을 ‘1..

    [통계] 단순 회귀분석

    [통계] 단순 회귀분석

    📍회귀 분석 1. 회귀 분석(regression analysis) - 변수들간의 함수적 관계를 선형으로 추론하는 통계적 분석 방법 - 독립변수를 통해 종속변수를 예측 - 비선형인 함수적 관계일 경우, 비선형회귀(nonlinear regression)를 사용 ex) 마케팅 비용에 따른 매출액을 예측 2. 종속 변수(dependent variable) - 예측을 하고자 하는 변수, 다른 변수의 영향을 받는 변수로 반응변수라고도 표현 ex) 매출액, 수율, 불량율 등 3. 독립 변수(independent variable) - 예측 하는 값을 설명해주는 변수, 종속변수에 영향을 주는 변수로 설명변수라고도 표현 🎯단순 회귀 분석(simple regression analysis) - 하나의 독립변수로 종속변수를 예..

    [통계] 상관분석

    [통계] 상관분석

    🎯상관 분석 1. 상관 관계(correlation coefficient) - 두 변량 사이에 한쪽이 증가하면, 다른 쪽도 증가(또는 감소) 하는 관계 - 두 변수 간의 함수 관계가 선형적인 관계가 있는지 파악할 수 있는 측도 - 상관관계가 있다고 해서 인과관계인 것은 아님 $$\rho= Corr(X,Y) = \frac{cov(X,Y)}{\sqrt{Var(X)}\sqrt{var(Y)}}$$ 1) 상관계수 $ -1 \leq \rho \leq 1$ 2) 상관계수가 1에 가까울 수록 양의 상관 관계가 강함 3) 상관계수가 -1에 가까울 수록 음의 상관 관계가 강함 4) 상관계수가 0에 가까울 수록 두 변수 간의 상관 관계가 존재하지 않음 5) 상관계수가 0이라는 것은 두 변수 간에 선형관계가 존재하지 않는다는..

    [통계] 범주형 자료 분석

    [통계] 범주형 자료 분석

    📌 적합도 검정 1. 범주형 자료(categorical data) - 관측된 결과를 어떤 속성에 따라 몇 개의 범주로 분류시켜 도수로 주어진 데이터 1) 범주형 자료 분석(categorical data analysis) - 범주형자료에대한통계적추론방법 - 범주형 자료 분석은 카이제곱 검정으로 추론함 ex) 대선에서 각 정당의 연령대별 지지율이 지난 대선의 지지율과 동일한가? ex) 성별에 따라서 선호하는 핸드폰 회사가 동일한가? 2) t-test와 카이제곱 검정의 차이 (1) t-test : 연속형 변수의 차이에 대한 검정 (2) 카이제곱 검정 : 명목형 변수에 대한 검정 2. 적합도 검정(goodness of fit test) - 관측된값들이추론하는분포를따르고있는지검정,한개의요인을대상으로검정 ex) 멘..

    [통계] 가설 검정

    [통계] 가설 검정

    🔍 가설 검정 - 가설 검정 = 가설(Hypothesis) + 검정(Testing) 1. 가설(hypothesis) - 주어진 사실 또는 조사하려고 하는 사실에 대한 주장 또는 추측 - 통계학에서는 특히 모수를 추청 할 때, 모수가 어떠하다는 증명하고 싶은 추측이나 주장 1) 귀무 가설(Null hypothesis : $H_0$) - 기존의 사실(아무것도 없다, 의미가 없다) - 대립가설과 반대되는 가설로 연구하고자 하는 가설의 반대의 가설로 귀무 가설은 연구 목적이 아님 ex) $H_0$ : 코로나백신이효과가없다, $H_0 : \mu =0$ 2) 대립 가설(Alternative hypothesis : $H_1$) - 데이터로 부터 나온 주장하고 싶은 가설 또는 연구의 목적으로 귀무가설의 반대 ex) $..

    [통계] 추정

    [통계] 추정

    📊​추정 1. 추정(estimation) - 모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것 2. 추정량(estimator) - 표본 평균으로 모평균을 추정할 때 표본 평균 📌 점추정(point estimation) - 모수를 하나의 특정값으로 추정 하는 방법 1. 일치성(Consistency) - 표본의 크기가 모집단의 크기에 근접해야 함 - 표본이 크기가 크면 클수록(모집단에 가까울 수록) 추정량의 오차가 작아짐 2. 불편성(Unbiased estimator) - 추정량이 모수와 같아야 함 - 불편 추정량 : 모수가 $\theta$이고 추정량이 $\widehat{\theta}$라고 정의하면, $E[\widehat{\theta}]=\theta$ - 즉, $E[\wi..