deda
Deda의 데이터 디자인
deda
전체 방문자
오늘
어제
  • 분류 전체보기 (121)
    • Python (27)
      • Python 기초 (17)
      • Python 데이터분석 (10)
    • SQL (9)
    • Coding test (54)
      • Python 기초문제 (45)
      • LeetCode (9)
    • BigData (2)
    • ZeroBase (3)
    • UX (0)
    • Business Review (1)
    • 통계 & 수학 (17)
      • 통계학 (14)
      • 수학 (3)
    • 스터디 (6)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 제로베이스
  • 최소공배수
  • SQL
  • 계산기
  • 팩토리얼
  • 코딩
  • 모듈
  • 군수열
  • 미니콘다
  • 데이터엔지니어
  • 네카라쿠배
  • 등비수열
  • 계차수열
  • 릿코드
  • pandas
  • 소인수분해
  • 데이터분석
  • 등차수열
  • 부트캠프
  • 함수
  • 데이터사이언티스트
  • 프로그래밍
  • BMI
  • 빅데이터
  • 파이썬
  • 통계
  • 기초수학
  • matplotlib
  • 데이터분석가
  • 마이데이터

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
deda

Deda의 데이터 디자인

[통계] 단순 회귀분석
통계 & 수학/통계학

[통계] 단순 회귀분석

2022. 5. 19. 01:40

 

 

📍회귀 분석

1. 회귀 분석(regression analysis)

- 변수들간의 함수적 관계를 선형으로 추론하는 통계적 분석 방법

- 독립변수를 통해 종속변수를 예측

- 비선형인 함수적 관계일 경우, 비선형회귀(nonlinear regression)를 사용

    ex) 마케팅 비용에 따른 매출액을 예측

 

 

2. 종속 변수(dependent variable)

- 예측을 하고자 하는 변수, 다른 변수의 영향을 받는 변수로 반응변수라고도 표현

    ex) 매출액, 수율, 불량율 등 

 

 

3. 독립 변수(independent variable)

- 예측 하는 값을 설명해주는 변수, 종속변수에 영향을 주는 변수로 설명변수라고도 표현


 

🎯단순 회귀 분석(simple regression analysis) 

-  하나의 독립변수로 종속변수를 예측하는 회귀 모형을 만드는 방법

 

1. 최소 제곱법

- 회귀 모형의 모수 $\beta_0$, $\beta_1$을 추정하는 방법 중 하나

- 회귀계수 : 회귀모형의 모수

- 최소제곱추정량(LSE): 최소 제곱법을 통해 구한 추정량

- OLS(Ordinary Least Square) : 최소제곱법을 통해 회귀모형의 모수를 추정

- 회귀모형의 오차 기본가정

   1) 정규성 가정 : 오차항은 평균이 0인 정규 분포를 따름

   2) 등분산성 가정 : 오차항의 분산은 모든 관측값 $x_i$에 상관없이 일정함

   3) 독립성 가정 : 모든 오차항은 서로 독립임

 

$y = \beta_0+\beta_0x_i+\varepsilon_i$,  $\varepsilon_i \sim idd$ $N(0,\sigma^2)$

 

 

 

2. 분산 분석표

- 추정된 회귀식에 대한 유의성 여부는 분산분 석을 통해서 회귀식의 유의성을 판단할 수 있음

- 평균제곱(mean square) : 제곱합을 각각의 자유도 나눈 값

 

$y_k-\overline y = (y_k-\widehat {y_k}) +(\widehat {y_k} - \overline y)$

①SST(총제곱합) = ②SSE(잔차제곱합) + ③SSR(회귀 제곱합)

 

자유도 : $n-1$

 

 

- 평균제곱오차(mean square error) : SSE/(n-2) =  $\widehat {\sigma^2} $

- 회귀평균제곱(regression mean square) : SSR/1

 

 

3. 회귀분석의 $\beta_0$, $\beta_1$의 추론과 가설 검정 

 1) 점 추정량

 

 

 2) $\beta_0$, $\beta_1$의 평균, 분산

 

 

3) $\beta_1$의 신뢰구간

 

 

 

 4) 가설 검정

   (1) 가설 수립

 

   (2) 검정통계량

 

   (3) 기각역

 

 

3. 결정 계수(Coefficient of determination: $R^2$)

- 추정된 회귀식이 얼마나 전체 데이터에 대해서 적합한지(설명력이 있는지)를 수치로 제공하는 값

- 0과 1사이의 값으로 1에 가까울수록 추정된 모형이 설명력이 높다고 할 수 있음

- 0이라는 것은 추정된 모형이 설명력이 전혀 없다고 할 수 있음

 

$$R^2 = \frac{SSR}{SST}=1-\frac{SSE}{SST}$$

 

 

4. 수정 결정 계수(Adjust $R^2$)

- $R^2$은 유의하지 않은 변수가 추가되어도 항상 증가됨(다중회귀)

-  Adjust $R^2$은 특정 계수를 곱해줌으로서 $R^2$가 항상 증가하지 않도록 함

-  보통 모형 간의 성능을 비교할 때 사용함 

 

$$R_{adj}^2 = 1- \left[\frac{n-1}{n-(p+1)} \right]\frac{SSE}{SST}$$

 

 

5. 잔차 분석

 a) 선형성을 벗어나는 경우

- 종속변수와 독립변수가 선형 관계가 아님

 

b) 등분산성이 벗어난 경우

-  일반적인 회귀모형 사용 불가능

-  등분산성 가정 위배

 

c) 독립성에 벗어나는 경우

- 시계열 데이터 또는 관측순서에 영향을 받는 데이터에서는 독립성을 담보 할 수 없음

 - 이 경우, Durbin-Watson test 실행

 

d) 정규성을 벗어 나는 경우

- Normal Q-Q plot으로도 확인

- 잔차가-2~+2사이에분포해야함

- 벗어나는 자료가 많으면 독립성 가정 위배

'통계 & 수학 > 통계학' 카테고리의 다른 글

[통계] 분산 분석  (0) 2022.05.19
[통계] 다중 회귀분석  (0) 2022.05.19
[통계] 상관분석  (0) 2022.05.19
[통계] 범주형 자료 분석  (0) 2022.05.18
[통계] 가설 검정  (0) 2022.05.18
    '통계 & 수학/통계학' 카테고리의 다른 글
    • [통계] 분산 분석
    • [통계] 다중 회귀분석
    • [통계] 상관분석
    • [통계] 범주형 자료 분석
    deda
    deda
    데이터 분석 / 파이썬 / UX / 정량리서치

    티스토리툴바