🔍 통계학이란?
산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야
1) 기술 통계학(descriptive statistics)
- 데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리 요약 설명
2) 추론 통계학(inferential statistics)
- 모집단으로 부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론
📈 데이터와 그래프
1. 변수(Variable)
- 조사 목적에 따라 관측된 자료의 값
- 해당 변수에 대하여 관측된 값들이 바로 자료(Data)가 됨
1) 질적 변수
- 관측된 데이터가 성별, 주소지(시군구), 업종 등과 같이 몇 개의 범주로 구분하여 표현할 수 있는 데이터를 의미
- 데이터 입력 시 1은 남자, 2는 여자로 표현 가능하나, 여기서 숫자는 의미 없음
명목형 변수 | 성별, 혈액형 |
순서형 변수 | 교육 수준, 건강 상태 |
2) 양적 변수
- 관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 가지고 있음.
이산형 변수 | 정수와 같이 딱 맞게 떨어지는 변수 |
연속형 변수 | 사람의 키와 같은 실수 등의 변수 |
2. EDA(Exploratory Data Analysis)
도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 방법
1) 목적
- 가설을 수립하고 적절한 모델 및 기법을 선정
- 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
- 분석 데이터가 적절한가 평가(추가 수집 여부, 이상치 발견)
3. 데이터 시각화(data visualization)
- 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적(graph)으로 표현 전달
시간 시각화 | 막대 그래프, 누적 막대 그래프, 점 그래프 |
분포 시각화 | 파이 차트, 도넛 차트, 트리맵, 누적 연속 그래프 |
관계 시각화 | 스캐터 플롯, 버블 차트, 히스토그램 |
비교 시각화 | 히트맵, 스타 차트, 평행 좌표계, 다차원 척도법 |
공간 시각화 | 지도 맵핑 |
📊 데이터의 기초 통계량
1. 기초 통계량
- 통계량(statistic)은 표본으로 산출한 값으로, 기술 통계량이라고도 표현
- 통계량을 통해, 데이터(표본)가 갖는 특성을 이해 할 수 있음
2. 중심 경향치
- 표본의 중심을 설명하는 값을 대표값이라 하며, 이를 중심경향치라고 함.
- 대표적인 중심 경향치는 평균이며, 중앙값, 최빈값, 절사 평균 등이 있음
1) 중앙값(median)
- 관측치를 크기순으로 나열 했을 때, 가운데 위치하는 값
- 홀수 일 경우 중앙에 있는 값, 짝수 일 경우 가운데 두개의 값을 산술 평균한 값
- 이상치가 포함된 데이터에 대해서 사용
2) 최빈값(mode)
- 가장 많이 관측되는 값
- 옷 사이즈와 같은 명목형 데이터에 사용
3. 산포도
- 데이터가 어떻게 흩어져 있는지를 확인하기 위해 중심 경향치와 함께 산포도 대한 측도를 같이 고려해야 함
- 데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있음
1) 범위(Range)
- 데이터의 최대값과 최소값의 차이를 의미함
2) 사분위수(quartile)
- 전체 데이터를 오름차순으로 정렬하여 4등분을 하여 나타냄
- 첫 번째 : 제1사분위수(Q1) / 두 번째 : 제2사분위수(Q2) / 세 번째 : 제3사분위수(Q3)
- 사분위수 범위(interquartile range): IQR = 제 3사분위수(Q3) – 제1사분위수(Q1)
3) 백분위수(percentile) :
- 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값
- 제p백분위수는 p%에 위치한 자료 값을 말함 ex) 75% → Q3
- 데이터를 오름차수로 배열하고 자료가 n개가 있을 때, 제(100*p) 백분위수는 아래와 같음
(1) np가 정수이면, np번째와 (np + 1)번째 자료의 평균
(2) np가정수가아니면,np보다큰최소의정수를m이라고할때m번째자료
4) 분산(variance)
- 데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 척도
- 분산이 크면 분포가 넓어지고 분산이 작으면 분포가 좁아짐
- 데이터의 각각의 값들의 편차를 제곱하여 계산
5) 표준 편차(standard deviation)
- 분산의 제곱근
6) 변동계수(Coefficient of Variation: CV)
- 평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용
- 표준편차를 평균으로 나누어서 산출하여 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교
4. 그래프
1) 왜도(skew)
- 자료의 분포가 얼마나 비대칭적인지 표현하는 지표
- 왜도가 0이면 좌우가 대칭, 클수록 우측꼬리가 길고, 작을수록 좌측 꼬리가 김.
2) 첨도(kurtosis)
- 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도
- 첨도값(K)이 3에 가까우면 산포도가 정규분포에 가까움
- K<3의 경우, 산포는 정규분포보다 꼬리가 얇은 분포
- K>3의 경우, 정규분포보다 꼬리가 두꺼운 분포
![](https://blog.kakaocdn.net/dn/cfGd8e/btrCjWAInjx/q1zUBbf2QjonNi6GkfGRc0/img.jpg)
'통계 & 수학 > 통계학' 카테고리의 다른 글
[통계] 모집단과 표본 분포 (0) | 2022.05.18 |
---|---|
[통계] 확률분포 - 연속형 확률 분포 (0) | 2022.05.17 |
[통계] 확률분포 - 이산형 확률분포 (0) | 2022.05.17 |
[통계] 확률 변수 (0) | 2022.05.17 |
[통계] 확률 (0) | 2022.05.17 |