logo

最尤推定量 📂数理統計学

最尤推定量

ビルドアップ

パラメータθΘ\theta \in \Thetaに対して、確率密度関数f(x;θ)f \left( x ; \theta \right)である確率変数XXについて考えよう。同じ確率密度関数f(x;θ)f(x ; \theta)実現x:=(x1,,xn)\mathbf{x} := \left( x_{1} , \cdots , x_{n} \right)を持っている、XXと同じ分布からiidに抽出されたランダムサンプルX1,,XnX_{1} , \cdots , X_{n}がある。これに対して定義された関数LLを、尤度関数likelihood functionと言う。 L(θ;x):=k=1nf(xk;θ) L ( \theta ; \mathbf{x} ) := \prod_{k=1}^{n} f \left( x_{k} ; \theta \right) 以下で説明する通り、我々はこの関数の最大値に関心があるので、掛け算\prodを足し算\sumに変えて、ログを取ったllとして表す方が便利である。 l(θ;x):=k=1nlogf(xk;θ) l ( \theta ; \mathbf{x} ) := \sum_{k=1}^{n} \log f \left( x_{k} ; \theta \right)

定義 1

以下を満たす推定量θ^:=θ^(X)\hat{\theta} := \hat{\theta} \left( \mathbf{X} \right)を、最尤推定量maximum Likelihood estimator、略してmleと呼ぶ。 θ^=arg maxL(θ;X) \hat{\theta} = \argmax L \left( \theta ; \mathbf{X} \right)


  • X\mathbf{X}ランダムベクターX:=(X1,,Xn)\mathbf{X} := \left( X_{1} , \cdots , X_{n} \right) である。
  • arg maxg\argmax gは関数gg最大引数で、ggが最大になるような値である。

説明

直感

実際、尤度は英語表現で見る方がもっと直感的で、「ありそうな」を意味する。

例えば、通りで偶然見かけたどんな男性3人の身長を計測したところ、169cm、171cm、182cmだったとしよう。そして、韓国男性の身長は正規分布N(μ,σ2)N \left( \mu , \sigma^{2} \right)に従っていると仮定しよう。正規分布の確率密度関数f(x;μ)f (x; \mu)は平均x=μx = \muで最大値を取るので、その関数値の積で定義されるL(θ;x)L \left( \theta ; \mathbf{x} \right)θ=μ\theta = \muの時に最も大きな値を持つ可能性が高い。

ここで、関数LLの主な引数はデータx\mathbf{x}ではなくθ\thetaに注目しよう。つまり、LLは、確率密度関数f(x)f(x)に入れるxxが動きながら値が変わらないが、fθf_{\theta}自体がθ\thetaによって左右に動きながら変わる関数だと想像するといい。

まだLLの性質についてよくわかっていないから、LLが最も大きくなる場所がθ=171\theta = 171だと確信を持って言えないが、確実にθ=182\theta = 182ではない。尤度という言葉やarg max\argmaxが見慣れないかもしれないが、実際には最尤推定量とは「最もありそうな値」を指しているのだ。

数式

もしLL微分可能であれば、最尤推定量は次の推定方程式estimating equation、すなわち偏微分方程式を満たす。 l(θ)θ=0 {{ \partial l ( \theta ) } \over { \partial \theta }} = 0 これはカリキュラムで関数の最大値を求める際に微分を使った解法の延長に過ぎない。ただし、教科書でこの部分を見ると、特に統計学の学生は大学1年生以降に微分方程式を扱うことがほとんどないので、馴染みがなく怖く感じられるかもしれない。しかし実際には微分方程式を解く必要はなく、よく知らなくても大丈夫なので、あまり心配しないでほしい。


  1. Hogg et al. (2013). Introduction to Mathematical Statistics(7th Edition): p209, 329. ↩︎