logo

ロジスティック回帰分析 📂統計的分析

ロジスティック回帰分析

ビルドアップ

YX1,,XpY \gets X_{1} , \cdots, X_{p} をやってみようと思う。ここで、YY は質的変数で、中でもクラスが2つしかない場合がある。例えば、男性と女性、成功と失敗、陽性と陰性、0011 などがあり、便宜上、単にY=0Y=0Y=1Y=1 と呼ぼう。このように従属変数が2値の場合、興味があるのは’独立変数 X1,Xp X_{1} , \cdots X_{p} を見たときにYY が何か’である。

しかし、YY は質的変数なので、通常の回帰分析とは異なり、回帰係数と変数の線形結合 y=β0+β1x1+βpxpy = \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p} で表現することができない。そのため、Y=1Y=1 になる確率を計算する方向でアプローチしようとする。

与えられた X=xX=x に対して、Y=1Y=1 になる確率を以下のように設定する。 π:=P(Y=1X=x)=eβ0+β1x1+βpxp1+eβ0+β1x1+βpxp\displaystyle \pi := P ( Y = 1 | X = x ) = {{ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }}

  • (i) 指数関数は常に 00 より大きく、π\pi の分母が分子より大きいので 0<π<1 0 < \pi < 1 である。
  • (ii) 自然に、Y=0Y = 0になる確率は 1π=P(Y=0X=x)=1eβ0+β1x1+βpxp1+eβ0+β1x1+βpxp=11+eβ0+β1x1+βpxp \begin{align*} 1 - \pi =& P ( Y = 0 | X = x ) \\ =& 1 - {{ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} \\ =& {{ 1 } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} \end{align*} であり、したがって π1π=eβ0+β1x1+βpxp1+eβ0+β1x1+βpxp11+eβ0+β1x1+βpxp=eβ0+β1x1+βpxp\displaystyle { { \pi } \over { 1 - \pi } } = { { \displaystyle {{ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} } \over { \displaystyle {{ 1 } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} } } = e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} だ。両辺に自然対数を取ると ln(π1π)=β0+β1x1+βpxp\displaystyle \ln \left( { { \pi } \over { 1 - \pi } } \right) = \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p} になる。

このように対数を取ることをロジット変換と呼び、ln(π1π)\displaystyle \ln \left( { { \pi } \over { 1 - \pi } } \right)ロジットと呼ぶ。

モデル 1

ロジットを従属変数とした多重回帰分析 ln(π1π)X1,,Xp\displaystyle \ln \left( { { \pi } \over { 1 - \pi } } \right) \gets X_{1} , \cdots, X_{p}ロジスティック回帰分析と呼ぶ。

ロジスティックモデルで得られた値にロジット変換の逆変換を適用することで、もともと知りたかった確率 π\pi を得ることができる。この時、XiX_{i} の係数 βi\beta_{i} が正であるということは、XiX_{i} が大きくなるにつれて、Y=1Y=1 になる確率も大きくなることを意味し、負であることは、XiX_{i} が大きくなるにつれて、Y=0Y=0 になる確率も大きくなることを意味する。

また、ロジスティック回帰分析は与えられた条件に対して結果が起こる確率を教えてくれるので予測技術であると同時に、確率に対して適切な閾値を提案することで分類技術にもなり得る。

一緒に見る


  1. Hadi. (2006). Regression Analysis by Example(4th Edition): p318~320. ↩︎