로지스틱 회귀분석 (logistic regression analysis)

1 minute read

로지스틱 회귀분석이란?

  • 독립변수가 연속형 변수이지만, 종속변수가 비연속형 변수(특히, 이분형 변수 - 어떠한 사건이 발생하거나 발생하지 않을 (0,1)확률만 가짐)일 경우 로지스틱 회귀분석을 사용한다.
출처: 패스트캠퍼스
  • 종속변수가 이분형 변수임에 따라, 회귀식은 직선으로 표현되지 않고 로그함수와 같은 모습을 취한다.
  • 로지스틱 회귀분석은, 회귀분석과 비슷한 측면이 있지만 그 원리가 다름에 따라, 회귀계수를 검증하는 방식이 다르고 회귀분석에 대한 해석(ex. 가능성으로 표현함)이 다르다.

로지스틱 회귀분석의 원리

  • 특정 사건이 발생할 확률과 발생하지 않을 확률 간의 비율인 Odd ratio = p / (1-P)로 표현되는데, 여기에 자연로그를 취한 값을 기존 회귀식의 종속변수(y)로 대체한다.
    • 즉, 기존 회귀식: y = b0 + b1 · x + e 로지스틱 회귀식: lnp / (1-P)> = b0 + b1 · x + e
  • 종속변수에 로짓이 적용됨에 따라 기울기에 대한 해석도 기존의 회귀분석과는 다르다. b1 > 0일 경우, 가 증가할 수록 특정 사건이 발생하지 않을 확률보다 발생할 확률이 높다는 의미이다. 반대로 b1 <0 일 경우, 가 증가할 수록 특정 사건이 발생할 확률보다 발생하지 않을 확률이 높다는 의미이다.

로지스틱 회귀분석 대표 가설

  • H0: 독립변수가 종속변수에 미치는 영향의 크기는 ‘0’이 아니다.
  • H1(양측검증): 독립변수가 종속변수에 미치는 영향의 크기는 ‘0’이다.
  • H1(단측검증): 독립변수가 종속변수에 미치는 영향의 크기는 ‘0’보다 크다.

모형적합도

  • 모형적합도란 모형이 적절하게 만들어졌는지를 보여주는 지표이다.
  • 모형에 대한 검정으로 대표적으로는 카이제곱(x2)을, 모형 설명력을 위해서는 -2log likelihood, Cox and Snee R2 , NagelkerkeR2 을 활용한다.

More to read

Reference

  • 패스트 캠퍼스 데이터 분석 입문 올인원 패키지 강의

Updated: