ロジスティック回帰分析 📂統計的分析

ロジスティック回帰分析

ビルドアップ

$Y \gets X_{1} , \cdots, X_{p}$ をやってみようと思う。ここで、$Y$ は質的変数で、中でもクラスが2つしかない場合がある。例えば、男性と女性、成功と失敗、陽性と陰性、$0$ と$1$ などがあり、便宜上、単に$Y=0$ や$Y=1$ と呼ぼう。このように従属変数が2値の場合、興味があるのは’独立変数 $ X_{1} , \cdots X_{p}$ を見たときに$Y$ が何か’である。

しかし、$Y$ は質的変数なので、通常の回帰分析とは異なり、回帰係数と変数の線形結合 $y = \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}$ で表現することができない。そのため、$Y=1$ になる確率を計算する方向でアプローチしようとする。

与えられた $X=x$ に対して、$Y=1$ になる確率を以下のように設定する。 $$\displaystyle \pi := P ( Y = 1 | X = x ) = {{ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }}$$

(i) 指数関数は常に $0$ より大きく、$\pi$ の分母が分子より大きいので $ 0 < \pi < 1$ である。
(ii) 自然に、$Y = 0$になる確率は $$ \begin{align*} 1 - \pi =& P ( Y = 0 | X = x ) \\ =& 1 - {{ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} \\ =& {{ 1 } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} \end{align*} $$ であり、したがって $$\displaystyle { { \pi } \over { 1 - \pi } } = { { \displaystyle {{ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} } \over { \displaystyle {{ 1 } \over { 1+ e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} }} } } = e^{ \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}} $$ だ。両辺に自然対数を取ると $$\displaystyle \ln \left( { { \pi } \over { 1 - \pi } } \right) = \beta_{0} + \beta_{1} x_{1} + \cdots \beta_{p} x_{p}$$ になる。

このように対数を取ることをロジット変換と呼び、$\displaystyle \ln \left( { { \pi } \over { 1 - \pi } } \right)$ をロジットと呼ぶ。

モデル ¹

ロジットを従属変数とした多重回帰分析 $\displaystyle \ln \left( { { \pi } \over { 1 - \pi } } \right) \gets X_{1} , \cdots, X_{p}$ をロジスティック回帰分析と呼ぶ。

ロジスティックモデルで得られた値にロジット変換の逆変換を適用することで、もともと知りたかった確率 $\pi$ を得ることができる。この時、$X_{i}$ の係数 $\beta_{i}$ が正であるということは、$X_{i}$ が大きくなるにつれて、$Y=1$ になる確率も大きくなることを意味し、負であることは、$X_{i}$ が大きくなるにつれて、$Y=0$ になる確率も大きくなることを意味する。

また、ロジスティック回帰分析は与えられた条件に対して結果が起こる確率を教えてくれるので予測技術であると同時に、確率に対して適切な閾値を提案することで分類技術にもなり得る。

一緒に見る

ロジスティックという名前が付いた理由は、ロジスティック関数を使用するためである。
Rでのロジスティック回帰分析結果
ホスマー・レムショー適合度検定
多重回帰分析

Hadi. (2006). Regression Analysis by Example(4th Edition): p318~320. ↩︎