로지스틱 회귀분석
빌드업
$Y \gets X_{1} , \cdots, X_{p}$ 을 한다고 생각해보자.여기서 $Y$ 가 질적변수, 그 중에서도 계급이 두개뿐인 경우가 있을 수 있다. 예를 들어 남자와 여자, 성공과 실패, 양성과 음성, $0$ 과 $1$ 등이 있고, 편의상 그냥 $Y=0$ 혹은 $Y=1$ 이라고 하자. 이렇게 종속변수가 이항적인 경우 관심사는 ‘독립변수 $ X_{1} , \cdots X_{p}$ 들을 보았을 때 $Y$ 가 무엇인지’일 것이다.
그런데 $Y$ 는 질적변수이므로, 일반적인 회귀분석과 달리 회귀계수들과 변수들의 선형결합 $y = \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}$ 으로 표현될 수 없다. 그래서 $Y=1$ 일 확률을 구하는 방향으로 접근해보려 한다.
주어진 $X=x$ 에 대해 $Y=1$ 일 확률을 다음과 같이 두자. $$\displaystyle \pi := P ( Y = 1 | X = x ) = {{ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }}$$
- (i) 지수함수는 항상 $0$ 보다 크고, $\pi$ 의 분모가 분자보다 크므로 $ 0 < \pi < 1$ 이다.
- (ii) 자연스럽게 $Y = 0$ 일 확률은 $$ \begin{align*} 1 - \pi =& P ( Y = 0 | X = x ) \\ =& 1 - {{ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} \\ =& {{ 1 } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} \end{align*} $$ 이므로 $$\displaystyle { { \pi } \over { 1 - \pi } } = { { \displaystyle {{ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} } \over { \displaystyle {{ 1 } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} } } = e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} $$ 이다. 양변에 자연로그를 취하면 $$\displaystyle \ln \left( { { \pi } \over { 1 - \pi } } \right) = \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}$$
이렇게 로그를 취하는 것을 로짓 변환logit transformation이라 하고, $\displaystyle \ln \left( { { \pi } \over { 1 - \pi } } \right)$ 를 로짓logit이라 부른다.
모델 1
로짓을 종속변수로 둔 다중회귀분석 $\displaystyle \ln \left( { { \pi } \over { 1 - \pi } } \right) \gets X_{1} , \cdots, X_{p}$ 을 로지스틱 회귀분석logistic regression이라 한다.
로지스틱 모형으로 얻은 값들에 로짓 변환의 역변환을 취함으로써 원래 알고 싶었던 확률 $\pi$ 을 얻을 수 있다. 이 때 $X_{i}$ 의 계수 $\beta_{i}$ 양수라는 것은 $X_{i}$ 가 커질수록 $Y=1$ 일 확률도 커짐을 의미하고, 음수라는 것은 $X_{i}$ 가 커질수록 $Y=0$ 일 확률도 커짐을 의미한다.
한편 로지스틱 회귀분석은 주어진 조건에 대해 결과가 일어날 확률을 알려주므로 예측 기법이기도 하지만, 확률에 대한 적절한 역치threshold을 제안함으로써 분류 기법이 될 수 있기도 하다.
같이보기
- 로지스틱이라는 이름이 붙은 이유는 로지스틱 함수를 사용하기 때문이다.
- R 에서 로티스틱 회귀분석 결과
- 호스머-렘쇼 적합도 검정
- 다중회귀분석
Hadi. (2006). Regression Analysis by Example(4th Edition): p318~320. ↩︎