統計分析における変数選択基準
概要
変数を選択する問題は、必然的に分析者の主観が介入するが、できる限り客観的な結論を導けるよう数値的指標が必要だった。そのような値を計算できれば、変数選択手順をいつ停止させるかについて明確な答えになる。ただし、この基準には様々な種類があり、基準を異なって適用すると結果も変わる可能性がある。
指標 [^1]
説明力r-squared $R^2$
説明力は、$\displaystyle R^2 = 1 - {{ \text{ SSE } } \over { \text{ SST} }}$で計算され、$1$に近づけば近づくほど、モデルがデータをよく説明していると解釈できる。
しかし、変数選択基準としては、比較されるモデル間で独立変数の数が異なると意味がなくなるため、適切ではない。
修正説明力adjusted R-squared $R_{a}^2$
回帰分析では、変数の数が増えるとそれだけ使用できるデータが増えることを意味し、その時の説明力$R^{2}$は必ず増加する。それに対して、修正説明力は、説明力と異なり$\displaystyle R^{2}_{a} = 1 - {{ \text{ SSE } / (n - p - 1) } \over { \text{ SST} / (n - 1) }}$で計算されて変数の数が反映される。
修正説明力$R^{2}_{a}$は、変数の数に対してペナルティを適用することで、変数の数が異なると使用できない説明力の欠点を克服している。また、他の変数選択基準が相対的な指標であるため、モデルとモデルを比較するときのみ意味があるのとは異なり、修正説明力はそれ自体でモデルがどれだけデータをよく説明しているかも教えてくれるため、どんな基準を使っても参考になる指標でもある。最適なモデルではなく、最も説明力の高いモデルを求めているなら、役に立つだろう。
アカイケ情報量基準akaike Information Criteria $\text{AIC}_{p}$
独立変数$p$で、アカイケ情報量基準は$\displaystyle \text{AIC}_{p} := n \ln \left( {{ \text{SSE}_{p} } \over {n}} \right) + 2(p+1) $で計算される。AICは実際の分析で最も好まれる尺度として、AICが小さい方がより良いと判断される。
式の第二項は、$p$が大きくなると、つまり変数が多くなるほどペナルティを与えると考えられる。AICの欠点は、標本$n$が異なる場合、比較が不正確になることである。同じデータを使って変数だけを変えて分析するのに、どうして$n$が異なるのか不思議に思うかもしれないが、特定の変数が多くの欠損値を持つ場合、これが致命的な問題になる可能性がある。
ベイズ情報量基準Bayes Information Criteria $\text{ BIC }_{p}$
独立変数$p$で、ベイズ情報量基準は$\displaystyle \text{BIC}_{p} := n \ln \left( {{ \text{SSE}_{p} } \over {n}} \right) + ( p +1 ) \ln n $で計算される。AICと似ているが、最後の項を修正することでAICを補完し、同様に小さい方が良いとされる。
マローズmallows $C_{p}$
独立変数$p$に対して、マローズ$C_{p}$は$\displaystyle C_{p} := {{ \text{SSE}_{p} } \over { \hat{\sigma}^2 }} + ( 2p - n )$で計算される。
$C_{p}$は、偏りが少ない方向への変数を選択し、$C_{p} \approx p$に近づくほど良いと判断される。つまり、偏りが少ないということだ。偏りを気にしなければならない分析があるなら、役に立ち、数学的にもきれいだが、最近では、ある程度の偏りがあっても分散を大幅に減らして精密に合わせる技術が評価を受けているため、人気はない。