deda
Deda의 데이터 디자인
deda
전체 방문자
오늘
어제
  • 분류 전체보기 (121)
    • Python (27)
      • Python 기초 (17)
      • Python 데이터분석 (10)
    • SQL (9)
    • Coding test (54)
      • Python 기초문제 (45)
      • LeetCode (9)
    • BigData (2)
    • ZeroBase (3)
    • UX (0)
    • Business Review (1)
    • 통계 & 수학 (17)
      • 통계학 (14)
      • 수학 (3)
    • 스터디 (6)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • matplotlib
  • 등차수열
  • 통계
  • 모듈
  • 데이터사이언티스트
  • 부트캠프
  • 함수
  • 계산기
  • BMI
  • 프로그래밍
  • 데이터분석
  • 기초수학
  • 데이터분석가
  • 계차수열
  • 제로베이스
  • 데이터엔지니어
  • 팩토리얼
  • 파이썬
  • 등비수열
  • pandas
  • 소인수분해
  • 네카라쿠배
  • 미니콘다
  • 마이데이터
  • 코딩
  • 빅데이터
  • 최소공배수
  • 릿코드
  • 군수열
  • SQL

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
deda

Deda의 데이터 디자인

[통계] 데이터의 이해
통계 & 수학/통계학

[통계] 데이터의 이해

2022. 5. 17. 01:42

🔍  통계학이란?

 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야

 

1) 기술 통계학(descriptive statistics) 

- 데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리 요약 설명

 

2) 추론 통계학(inferential statistics)

- 모집단으로 부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론


 

📈  데이터와 그래프

1. 변수(Variable)

- 조사 목적에 따라 관측된 자료의 값

- 해당 변수에 대하여 관측된 값들이 바로 자료(Data)가 됨

 

1) 질적 변수

- 관측된 데이터가 성별, 주소지(시군구), 업종 등과 같이 몇 개의 범주로 구분하여 표현할 수 있는 데이터를 의미

- 데이터 입력 시 1은 남자, 2는 여자로 표현 가능하나, 여기서 숫자는 의미 없음

명목형 변수 성별,  혈액형
순서형 변수 교육 수준, 건강 상태

 

2) 양적 변수

- 관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 가지고 있음.

이산형 변수 정수와 같이 딱 맞게 떨어지는 변수
연속형 변수 사람의 키와 같은 실수 등의 변수

 

2. EDA(Exploratory Data Analysis)

도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 방법

1) 목적

- 가설을 수립하고 적절한 모델 및 기법을 선정

- 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가

- 분석 데이터가 적절한가 평가(추가 수집 여부, 이상치 발견)


 

3. 데이터 시각화(data visualization)

- 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적(graph)으로 표현 전달

시간 시각화 막대 그래프, 누적 막대 그래프, 점 그래프
분포 시각화 파이 차트, 도넛 차트, 트리맵, 누적 연속 그래프
관계 시각화 스캐터 플롯, 버블 차트, 히스토그램
비교 시각화 히트맵, 스타 차트, 평행 좌표계, 다차원 척도법
공간 시각화 지도 맵핑

 

📊  데이터의 기초 통계량

1. 기초 통계량

- 통계량(statistic)은 표본으로 산출한 값으로, 기술 통계량이라고도 표현

- 통계량을 통해, 데이터(표본)가 갖는 특성을 이해 할 수 있음


​​

 

2. 중심 경향치

- 표본의 중심을 설명하는 값을 대표값이라 하며, 이를 중심경향치라고 함.
-
대표적인 중심 경향치는 평균이며, 중앙값, 최빈값, 절사 평균 등이 있음

 

1) 중앙값(median)

- 관측치를 크기순으로 나열 했을 때, 가운데 위치하는 값

- 홀수 일 경우 중앙에 있는 값, 짝수 일 경우 가운데 두개의 값을 산술 평균한 값
-
이상치가 포함된 데이터에 대해서 사용

 

2) 최빈값(mode)

- 가장 많이 관측되는 값

- 옷 사이즈와 같은 명목형 데이터에 사용


 

3. 산포도

- 데이터가 어떻게 흩어져 있는지를 확인하기 위해 중심 경향치와 함께 산포도 대한 측도를 같이 고려해야 함

- 데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동 계수 등이 있음 

 

1) 범위(Range)
- 데이터의 최대값과 최소값의 차이를 의미함 

 

2) 사분위수(quartile)
- 전체 데이터를 오름차순으로 정렬하여 4등분을 하여 나타냄 

- 첫 번째 : 제1사분위수(Q1)  /  두 번째 :  제2사분위수(Q2)  /  세 번째 : 제3사분위수(Q3)

- 사분위수 범위(interquartile range): IQR = 제 3사분위수(Q3) – 제1사분위수(Q1) 

 

3) 백분위수(percentile) :
- 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값

- 제p백분위수는 p%에 위치한 자료 값을 말함  ex) 75% → Q3

- 데이터를 오름차수로 배열하고 자료가 n개가 있을 때, 제(100*p) 백분위수는 아래와 같음 

 

   (1) np가 정수이면, np번째와 (np + 1)번째 자료의 평균
   (2) np
가정수가아니면,np보다큰최소의정수를m이라고할때m번째자료 

 

4) 분산(variance)
-
데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 척도

- 분산이 크면 분포가 넓어지고 분산이 작으면 분포가 좁아짐
-
데이터의 각각의 값들의 편차를 제곱하여 계산

표본분산
모분산

 

5) 표준 편차(standard deviation)
- 분산의 제곱근 

표본 표준편차
모표준편차

 

6) 변동계수(Coefficient of Variation: CV)
- 평균이 다른 두개 이상의 그룹의 표준편차를 비교할 때 사용
- 표준편차를 평균으로 나누어서 산출하여 단위나 조건에 상관 없이 서로 다른 그룹의 산포를 비교

 

변동계수


 

4. 그래프

1) 왜도(skew)

- 자료의 분포가 얼마나 비대칭적인지 표현하는 지표

- 왜도가 0이면 좌우가 대칭, 클수록 우측꼬리가 길고,  작을수록 좌측 꼬리가 김.

 

2) 첨도(kurtosis)

- 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도

- 첨도값(K)이 3에 가까우면 산포도가 정규분포에 가까움
-
K<3의 경우, 산포는 정규분포보다 꼬리가 얇은 분포

- K>3의 경우, 정규분포보다 꼬리가 두꺼운 분포

 

'통계 & 수학 > 통계학' 카테고리의 다른 글

[통계] 모집단과 표본 분포  (0) 2022.05.18
[통계] 확률분포 - 연속형 확률 분포  (0) 2022.05.17
[통계] 확률분포 - 이산형 확률분포  (0) 2022.05.17
[통계] 확률 변수  (0) 2022.05.17
[통계] 확률  (0) 2022.05.17
    '통계 & 수학/통계학' 카테고리의 다른 글
    • [통계] 확률분포 - 연속형 확률 분포
    • [통계] 확률분포 - 이산형 확률분포
    • [통계] 확률 변수
    • [통계] 확률
    deda
    deda
    데이터 분석 / 파이썬 / UX / 정량리서치

    티스토리툴바