最尤推定量
ビルドアップ
パラメータ$\theta \in \Theta$に対して、確率密度関数が$f \left( x ; \theta \right)$である確率変数$X$について考えよう。同じ確率密度関数$f(x ; \theta)$と実現$\mathbf{x} := \left( x_{1} , \cdots , x_{n} \right)$を持っている、$X$と同じ分布からiidに抽出されたランダムサンプル$X_{1} , \cdots , X_{n}$がある。これに対して定義された関数$L$を、尤度関数likelihood functionと言う。 $$ L ( \theta ; \mathbf{x} ) := \prod_{k=1}^{n} f \left( x_{k} ; \theta \right) $$ 以下で説明する通り、我々はこの関数の最大値に関心があるので、掛け算$\prod$を足し算$\sum$に変えて、ログを取った$l$として表す方が便利である。 $$ l ( \theta ; \mathbf{x} ) := \sum_{k=1}^{n} \log f \left( x_{k} ; \theta \right) $$
定義 1
以下を満たす推定量$\hat{\theta} := \hat{\theta} \left( \mathbf{X} \right)$を、最尤推定量maximum Likelihood estimator、略してmleと呼ぶ。 $$ \hat{\theta} = \argmax L \left( \theta ; \mathbf{X} \right) $$
- $\mathbf{X}$はランダムベクター$\mathbf{X} := \left( X_{1} , \cdots , X_{n} \right) $である。
- $\argmax g$は関数$g$の最大引数で、$g$が最大になるような値である。
説明
直感
実際、尤度は英語表現で見る方がもっと直感的で、「ありそうな」を意味する。
例えば、通りで偶然見かけたどんな男性3人の身長を計測したところ、169cm、171cm、182cmだったとしよう。そして、韓国男性の身長は正規分布$N \left( \mu , \sigma^{2} \right)$に従っていると仮定しよう。正規分布の確率密度関数$f (x; \mu)$は平均$x = \mu$で最大値を取るので、その関数値の積で定義される$L \left( \theta ; \mathbf{x} \right)$は$\theta = \mu$の時に最も大きな値を持つ可能性が高い。
ここで、関数$L$の主な引数はデータ$\mathbf{x}$ではなく$\theta$に注目しよう。つまり、$L$は、確率密度関数$f(x)$に入れる$x$が動きながら値が変わらないが、$f_{\theta}$自体が$\theta$によって左右に動きながら変わる関数だと想像するといい。
まだ$L$の性質についてよくわかっていないから、$L$が最も大きくなる場所が$\theta = 171$だと確信を持って言えないが、確実に$\theta = 182$ではない。尤度という言葉や$\argmax$が見慣れないかもしれないが、実際には最尤推定量とは「最もありそうな値」を指しているのだ。
数式
もし$L$が微分可能であれば、最尤推定量は次の推定方程式estimating equation、すなわち偏微分方程式を満たす。 $$ {{ \partial l ( \theta ) } \over { \partial \theta }} = 0 $$ これはカリキュラムで関数の最大値を求める際に微分を使った解法の延長に過ぎない。ただし、教科書でこの部分を見ると、特に統計学の学生は大学1年生以降に微分方程式を扱うことがほとんどないので、馴染みがなく怖く感じられるかもしれない。しかし実際には微分方程式を解く必要はなく、よく知らなくても大丈夫なので、あまり心配しないでほしい。
Hogg et al. (2013). Introduction to Mathematical Statistics(7th Edition): p209, 329. ↩︎