logo

로지스틱 회귀분석 📂통계적분석

로지스틱 회귀분석

빌드업

YX1,,XpY \gets X_{1} , \cdots, X_{p} 을 한다고 생각해보자.여기서 YY 가 질적변수, 그 중에서도 계급이 두개뿐인 경우가 있을 수 있다. 예를 들어 남자와 여자, 성공과 실패, 양성과 음성, 0011 등이 있고, 편의상 그냥 Y=0Y=0 혹은 Y=1Y=1 이라고 하자. 이렇게 종속변수가 이항적인 경우 관심사는 ‘독립변수 X1,Xp X_{1} , \cdots X_{p} 들을 보았을 때 YY 가 무엇인지’일 것이다.

그런데 YY 는 질적변수이므로, 일반적인 회귀분석과 달리 회귀계수들과 변수들의 선형결합 y=β0+β1x1+βpxpy = \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p} 으로 표현될 수 없다. 그래서 Y=1Y=1 일 확률을 구하는 방향으로 접근해보려 한다.

주어진 X=xX=x 에 대해 Y=1Y=1 일 확률을 다음과 같이 두자. π:=P(Y=1X=x)=eβ0+β1x1+βpxp1+eβ0+β1x1+βpxp\displaystyle \pi := P ( Y = 1 | X = x ) = {{ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }}

  • (i) 지수함수는 항상 00 보다 크고, π\pi 의 분모가 분자보다 크므로 0<π<1 0 < \pi < 1 이다.
  • (ii) 자연스럽게 Y=0Y = 0 일 확률은 1π=P(Y=0X=x)=1eβ0+β1x1+βpxp1+eβ0+β1x1+βpxp=11+eβ0+β1x1+βpxp \begin{align*} 1 - \pi =& P ( Y = 0 | X = x ) \\ =& 1 - {{ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} \\ =& {{ 1 } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} \end{align*} 이므로 π1π=eβ0+β1x1+βpxp1+eβ0+β1x1+βpxp11+eβ0+β1x1+βpxp=eβ0+β1x1+βpxp\displaystyle { { \pi } \over { 1 - \pi } } = { { \displaystyle {{ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} } \over { \displaystyle {{ 1 } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} } } = e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} 이다. 양변에 자연로그를 취하면 ln(π1π)=β0+β1x1+βpxp\displaystyle \ln \left( { { \pi } \over { 1 - \pi } } \right) = \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}

이렇게 로그를 취하는 것을 로짓 변환logit transformation이라 하고, ln(π1π)\displaystyle \ln \left( { { \pi } \over { 1 - \pi } } \right)로짓logit이라 부른다.

모델 1

로짓을 종속변수로 둔 다중회귀분석 ln(π1π)X1,,Xp\displaystyle \ln \left( { { \pi } \over { 1 - \pi } } \right) \gets X_{1} , \cdots, X_{p}로지스틱 회귀분석logistic regression이라 한다.

로지스틱 모형으로 얻은 값들에 로짓 변환의 역변환을 취함으로써 원래 알고 싶었던 확률 π\pi 을 얻을 수 있다. 이 때 XiX_{i} 의 계수 βi\beta_{i} 양수라는 것은 XiX_{i} 가 커질수록 Y=1Y=1 일 확률도 커짐을 의미하고, 음수라는 것은 XiX_{i} 가 커질수록 Y=0Y=0 일 확률도 커짐을 의미한다.

한편 로지스틱 회귀분석은 주어진 조건에 대해 결과가 일어날 확률을 알려주므로 예측 기법이기도 하지만, 확률에 대한 적절한 역치threshold을 제안함으로써 분류 기법이 될 수 있기도 하다.

같이보기


  1. Hadi. (2006). Regression Analysis by Example(4th Edition): p318~320. ↩︎