logo

便宜性-分散トレードオフ 📂数理統計学

便宜性-分散トレードオフ

定義

MSE(θ^)=Varθ^+(Biasθ^)2 \text{MSE} \left( \widehat{\theta} \right) = \operatorname{Var} \widehat{\theta} + \left( \text{Bias} \widehat{\theta} \right)^{2}

説明

平均二乗誤差 MSE\text{MSE} は、統計モデルの評価や機械学習の損失関数としてよく使用される指標で、特にバイアス分散のトレードオフで表されることが多い。統計学者にとっては、バイアスを扱うことが少し不自然に感じるかもしれない。適切な確率分布を仮定し、その数学的理論に基づいてデータを扱う立場では、分散は手に取るように馴染み深い概念だが、バイアスの二乗は、そもそも推定量と真の値との乖離を表すため、バイアスをコントロールできないということは、誤った分析につながると考えられるからだ。

しかし、2021年現在、機械学習技術の飛躍的な発展があったため、「予測」するという意味でバイアスが大きくなることを補償できるだけの誤差を減らす技術であれば、喜んで使用する時代になった。もちろん分野によって異なるが、古典的な統計技術よりも機械学習が積極的に使用されるなら、バイアスのコントロールにあまりにも拘泥することなく、パフォーマンスが優れた方法を敢えて放棄する必要はない。(もちろん、背景が統計学であれば、これは非常に不満で、厭だろう。私もそう思う。)

証明

戦略:統計学でよく使用される方法だ。期待値の中の括弧で 0=Eθ^Eθ^0 = E \widehat{\theta} - E \widehat{\theta} をいくつかの項に分割し、それから分散とバイアスの形で整理する。


Eθ^θE \widehat{\theta} - \theta は定数なので、 MSE(θ^)=E[(θ^θ)2]=E[(θ^Eθ^+Eθ^θ)2]=E[(θ^Eθ^)2+2(θ^Eθ^)(Eθ^θ)+(Eθ^θ)2]=E[(θ^Eθ^)2]+2E[(θ^Eθ^)(Eθ^θ)]+E[(Eθ^θ)2]=Varθ^+2E[(θ^Eθ^)(Eθ^θ)]+(Eθ^θ)2=Varθ^+2E[(θ^Eθ^)]E[(Eθ^θ)]+(Biasθ^)2=Varθ^+2(Eθ^Eθ^)E[(Eθ^θ)]+(Biasθ^)2=Varθ^+0+(Biasθ^)2 \begin{align*} \text{MSE} \left( \widehat{\theta} \right) =& E \left[ \left( \widehat{\theta} - \theta \right)^{2} \right] \\ =& E \left[ \left( \widehat{\theta} - E \widehat{\theta} + E \widehat{\theta} - \theta \right)^{2} \right] \\ =& E \left[ \left( \widehat{\theta} - E \widehat{\theta} \right)^{2} + 2 \left( \widehat{\theta} - E \widehat{\theta} \right) \left( E \widehat{\theta} - \theta \right) + \left( E \widehat{\theta} - \theta \right)^{2} \right] \\ =& E \left[ \left( \widehat{\theta} - E \widehat{\theta} \right)^{2} \right] + 2 E \left[ \left( \widehat{\theta} - E \widehat{\theta} \right) \left( E \widehat{\theta} - \theta \right) \right] + E \left[ \left( E \widehat{\theta} - \theta \right)^{2} \right] \\ =& \operatorname{Var} \widehat{\theta} + 2 E \left[ \left( \widehat{\theta} - E \widehat{\theta} \right) \left( E \widehat{\theta} - \theta \right) \right] + \left( E \widehat{\theta} - \theta \right)^{2} \\ =& \operatorname{Var} \widehat{\theta} + 2 E \left[ \left( \widehat{\theta} - E \widehat{\theta} \right) \right] E \left[ \left( E \widehat{\theta} - \theta \right) \right] + \left( \text{Bias} \widehat{\theta} \right)^{2} \\ =& \operatorname{Var} \widehat{\theta} + 2 \left( E \widehat{\theta} - E \widehat{\theta} \right) E \left[ \left( E \widehat{\theta} - \theta \right) \right] + \left( \text{Bias} \widehat{\theta} \right)^{2} \\ =& \operatorname{Var} \widehat{\theta} + 0 + \left( \text{Bias} \widehat{\theta} \right)^{2} \end{align*}

注意

証明過程で、分散を表す際に真の値が使用されていないことに注目しよう。平均二乗誤差を通じて推定量 θ^\widehat{\theta} のパフォーマンスを評価する際、その分散はどれだけ真の値に適合しているかの指標にはならず、言い換えれば推定量が本当の推定量をどれだけよく当てているかだけを示す。

参照