数理統計学における便宜 📂数理統計学

数理統計学における便宜

定義

パラメーター $\theta$ に対する推定量 $\widehat{\theta}$ について、以下のように定義された $\text{Bias}$ を偏りという。 $\text{Bias} ( \theta ) = E(\widehat{\theta}) - \theta$

説明

Biasは偏り、または傾向として純化されるけど、一番よく使われる表現はそのまま発音される[Bias]だ。韓国語で偏りはConvenienceの場合が圧倒的に多いし、数式的にも実際の使われ方も「偏向」として純化するのが適していると思われるけれど、統計分析やマシーンラーニングの文脈では偏りが便利さを意味する場合が著しく少なく、「偏向」という言葉があまりにも便利なので「偏り」として使う場合の混同が少ない。しかし、言及したように、普通はただのBiasと言う。偏りはまさに推定量の期待値と真の値との差を表し、分散とはトレードオフ関係にあって、よく以下のような平方形で表される。 $\text{MSE} \left( \widehat{\theta} \right) = \Var \left( \widehat{\theta} \right) + \text{Bias} \left( \widehat{\theta} \right)^{2}$ 偏りの平方が大きいということは、その推定値がパラメーターを正確に示せていないという意味になる。だから、偏りを適切に調節できないと、どれだけ正確に予測してもどこかで外れた予測になるしかない。統計学、特に数理統計学では、主に確率を扱うので、分散は正確に分かっている場合が多く、できるだけ偏りは扱いたくない。それで、可能な限り偏りが完全に $0$ になるように制御し、そうやって偏りがない推定量を偏りのない推定量と呼んでる。