로지스틱 회귀분석
📂통계적분석로지스틱 회귀분석
빌드업
Y←X1,⋯,Xp 을 한다고 생각해보자.여기서 Y 가 질적변수, 그 중에서도 계급이 두개뿐인 경우가 있을 수 있다. 예를 들어 남자와 여자, 성공과 실패, 양성과 음성, 0 과 1 등이 있고, 편의상 그냥 Y=0 혹은 Y=1 이라고 하자. 이렇게 종속변수가 이항적인 경우 관심사는 ‘독립변수 X1,⋯Xp 들을 보았을 때 Y 가 무엇인지’일 것이다.
그런데 Y 는 질적변수이므로, 일반적인 회귀분석과 달리 회귀계수들과 변수들의 선형결합 y=β0+β1x1+⋯βpxp 으로 표현될 수 없다. 그래서 Y=1 일 확률을 구하는 방향으로 접근해보려 한다.
주어진 X=x 에 대해 Y=1 일 확률을 다음과 같이 두자.
π:=P(Y=1∣X=x)=1+eβ0+β1x1+⋯βpxpeβ0+β1x1+⋯βpxp
- (i) 지수함수는 항상 0 보다 크고, π 의 분모가 분자보다 크므로 0<π<1 이다.
- (ii) 자연스럽게 Y=0 일 확률은
1−π===P(Y=0∣X=x)1−1+eβ0+β1x1+⋯βpxpeβ0+β1x1+⋯βpxp1+eβ0+β1x1+⋯βpxp1
이므로
1−ππ=1+eβ0+β1x1+⋯βpxp11+eβ0+β1x1+⋯βpxpeβ0+β1x1+⋯βpxp=eβ0+β1x1+⋯βpxp
이다. 양변에 자연로그를 취하면
ln(1−ππ)=β0+β1x1+⋯βpxp
이렇게 로그를 취하는 것을 로짓 변환logit transformation이라 하고, ln(1−ππ) 를 로짓logit이라 부른다.
모델
로짓을 종속변수로 둔 다중회귀분석 ln(1−ππ)←X1,⋯,Xp 을 로지스틱 회귀분석logistic regression이라 한다.
로지스틱 모형으로 얻은 값들에 로짓 변환의 역변환을 취함으로써 원래 알고 싶었던 확률 π 을 얻을 수 있다. 이 때 Xi 의 계수 βi 양수라는 것은 Xi 가 커질수록 Y=1 일 확률도 커짐을 의미하고, 음수라는 것은 Xi 가 커질수록 Y=0 일 확률도 커짐을 의미한다.
한편 로지스틱 회귀분석은 주어진 조건에 대해 결과가 일어날 확률을 알려주므로 예측 기법이기도 하지만, 확률에 대한 적절한 역치threshold을 제안함으로써 분류 기법이 될 수 있기도 하다.
같이보기