logo

正規分布 📂確率分布論

正規分布

定義

pdf.png

平均 μR\mu \in \mathbb{R} と分散 σ2>0\sigma^{2} > 0 に対し、以下のような確率密度関数を持つ連続確率分布 N(μ,σ2)N \left( \mu,\sigma^{2} \right)正規分布normal distributionという。

f(x)=12πσexp[12(xμσ)2],xR f(x) = {{ 1 } \over { \sqrt{2 \pi} \sigma }} \exp \left[ - {{ 1 } \over { 2 }} \left( {{ x - \mu } \over { \sigma }} \right)^{2} \right] \qquad, x \in \mathbb{R}

特に、以下のような確率密度関数を持つ正規分布 N(0,12)N \left( 0,1^{2} \right)標準正規分布という。

f(z)=12πexp[z22] f(z) = {{ 1 } \over { \sqrt{2 \pi} }} \exp \left[ - {{ z^{2} } \over { 2 }} \right]

説明

正規分布の別名はガウス分布Gaussian distributionだ。歴史的には、ガウスが1809年に最小二乗法に関する研究で正規分布を紹介したことで広く知られるようになった。正規分布の本質を最初に理解した人がガウスであると断言することはできないが、ガウスは正規分布の異名を持つにふさわしい人物である。

1794年、たった17歳のガウスは、日常や研究で遭遇する測定値から真値を求める方法についてのインスピレーションを得た。ガウスは頻繁に通る道で自分の歩数を数え、そのデータを収集してグラフに描き、鐘型の曲線を得た。それはヒストグラムという概念がなかった時代の発見だったが、ガウス自身はこれらの正規分布と最小二乗法の概念がすでに広く知られていて、誰もが使用している技術だと思っていた1。まさに圧倒的な天才性だ。また、正規分布に関連する多くの計算にガウス積分が使われることもある。

その後、正規分布は広く研究され、科学全般になくてはならないツールになった。それほど馴染み深いため、一般人は統計学とは、結局のところ、データが正規分布に従うと仮定して平均分散を求めるだけではないかという誤解を持つことがある。そのような過小評価が統計学への進学につながった場合、それは残念なことだが、非専門家にはその程度の説明で十分かもしれない。それほど正規分布が重要で強力であるという意味での話だ。

基本性質

モーメント生成関数

  • [1]: m(t)=exp(μt+σ2t22),tRm(t) = \exp \left( \mu t + {{ \sigma^{2} t^{2} } \over { 2 }} \right) \qquad , t \in \mathbb{R}

平均と分散

  • [2] : XN(μ,σ2)X \sim N\left( \mu , \sigma^{2} \right) の場合 E(X)=μVar(X)=σ2 \begin{align*} E(X) =& \mu \\ \operatorname{Var} (X) =& \sigma^{2} \end{align*}

十分統計量と最尤推定量

  • [3] : 正規分布に従うランダムサンプル X:=(X1,,Xn)N(μ,σ2)\mathbf{X} := \left( X_{1} , \cdots , X_{n} \right) \sim N \left( \mu , \sigma^{2} \right) が与えられたとする。

十分統計量 TT最尤推定量 (μ^,σ2^)\left( \hat{\mu}, \widehat{\sigma^{2}} \right) は以下の通りである。 T=(kXk,kXk2)(μ^,σ2^)=(1nkXk,1nk(XkX)2) \begin{align*} T =& \left( \sum_{k} X_{k}, \sum_{k} X_{k}^{2} \right) \\ \left( \hat{\mu}, \widehat{\sigma^{2}} \right) =& \left( {{ 1 } \over { n }} \sum_{k} X_{k}, {{ 1 } \over { n }} \sum_{k} \left( X_{k} - \overline{X} \right)^{2} \right) \end{align*}

エントロピー

  • [4] : (自然対数を選んだ場合)正規分布のエントロピーは以下の通りである。 H=ln2πeσ2 H = \ln \sqrt{2\pi e \sigma^{2}}

定理

正規分布の具体的な重要性を長々と説明する必要はなく、以下のように単に定理を並べるだけで十分である。見てみよう。

中心極限定理

  • [a]: {Xk}k=1n\left\{ X_{k} \right\}_{k=1}^{n}iid 確率変数で、確率分布 (μ,σ2)\left( \mu, \sigma^2 \right) に従うとすると、nn \to \infty の時 nXnμσDN(0,1) \sqrt{n} {{ \overline{X}_n - \mu } \over {\sigma}} \overset{D}{\to} N (0,1)

カイ二乗分布との関係

  • [b]: XN(μ,σ2)X \sim N(\mu,\sigma ^2) ならば V=(Xμσ)2χ2(1) V=\left( { X - \mu \over \sigma} \right) ^2 \sim \chi ^2 (1)

二項分布の極限分布としての標準正規分布の導出

  • [c]: XiB(1,p)X_i \sim B(1,p) であり、Yn=X1+X2++XnY_n = X_1 + X_2 + \cdots + X_n の場合、YnB(n,p)Y_n \sim B(n,p) である Ynnpnp(1p)DN(0,1) { { Y_n - np } \over {\sqrt{ np(1-p) } } }\overset{D}{\to} N(0,1)

ポアソン分布の極限分布としての標準正規分布の導出

  • [d]: XnPoi(n)X_{n} \sim \text{Poi} \left( n \right) であり、Yn:=Xnnn\displaystyle Y_{n} := {{ X_{n} - n } \over { \sqrt{n} }} の場合 YnDN(0,1) Y_{n} \overset{D}{\to} N(0,1)

スチューデントのt分布の極限分布としての標準正規分布の導出

  • [e]: Tnt(n)T_n \sim t(n) の場合 Tn DN(0,1) T_n \ \overset{D}{\to} N(0,1)

正規分布とカイ二乗分布からt分布の導出

  • [f]: 二つの確率変数 W,VW,V独立であり、WN(0,1)W \sim N(0,1)Vχ2(r)V \sim \chi^{2} (r) の場合 T=WV/rt(r) T = { {W} \over {\sqrt{V/r} } } \sim t(r)

証明

戦略:ガウス積分が使用できるように指数部分を完全平方形にして標準正規分布のモーメント生成関数から導き出し、置換により正規分布のモーメント生成関数を得る。

ガウス積分: ex2dx=π \int_{-\infty}^{\infty} e^{-x^2} dx= \sqrt{\pi}

[1] 2

Z:=XμσN(0,1)\displaystyle Z := {{ X - \mu } \over { \sigma }} \sim N(0,1) とすると、そのモーメント生成関数は

mZ(t)=exp(tz)12πexp[12z2]dz=1π12exp[12z2+tz]dz=1π12exp[12(zt)2+t22]dz=1π12exp[12(zt)2]exp[t22]dz=exp[t22]1π12exp[w2]2dw=exp[t22] \begin{align*} m_{Z}(t) =& \int_{-\infty}^{\infty} \exp (tz) {{ 1 } \over { \sqrt{2 \pi} }} \exp \left[ - {{ 1 } \over { 2 }} z^{2} \right] dz \\ =& {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - {{ 1 } \over { 2 }} z^{2} + tz \right] dz \\ =& {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - {{ 1 } \over { 2 }} \left( z - t \right)^{2} + {{ t^{2} } \over { 2 }} \right] dz \\ =& {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - {{ 1 } \over { 2 }} \left( z - t \right)^{2} \right] \exp \left[ {{ t^{2} } \over { 2 }} \right] dz \\ =& \exp \left[ {{ t^{2} } \over { 2 }} \right] {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - w^{2} \right] \sqrt{2} dw \\ =& \exp \left[ {{ t^{2} } \over { 2 }} \right] \end{align*}

すると、XN(μ,σ2)X \sim N \left( \mu , \sigma^{2} \right) のモーメント生成関数は

mX(t)=E[exp(tX)]=E[exp(t(σZ+μ))]=exp(μt)E[exp(tσZ)]=exp(μt)exp(t2σ22)=exp(μt+σ2t22) \begin{align*} m_{X}(t) =& E \left[ \exp ( t X ) \right] \\ =& E \left[ \exp \left( t (\sigma Z + \mu) \right) \right] \\ =& \exp(\mu t) E \left[ \exp \left( t \sigma Z \right) \right] \\ =& \exp(\mu t) \exp \left( {{ t^{2} \sigma^{2} } \over { 2 }} \right) \\ =& \exp \left( \mu t + {{ \sigma^{2} t^{2} } \over { 2 }} \right) \end{align*}

[2]

モーメント生成関数を使用して直接導く。

[3]

直接導く。

[4]

直接導く。

[a]

モーメント法を応用する。

[b]

確率密度関数を直接導く。ガンマ関数とガンマ分布、カイ二乗分布との関係が使われる。

[c]

中心極限定理を使用して証明される。

[d]

モーメント生成関数を使用して証明される。

[e]

難しい。スターリング近似を通じて確率密度関数が収束することを証明する。

[f]

簡単だが複雑。確率密度関数を直接導く。

コード

以下はコーシー分布、t分布、コーシー分布の確率密度関数を示すJuliaのコードである。

@time using LaTeXStrings
@time using Distributions
@time using Plots

cd(@__DIR__)

x = -4:0.1:4
plot(x, pdf.(Cauchy(), x),
 color = :red,
 label = "Cauchy", size = (400,300))
plot!(x, pdf.(TDist(3), x),
 color = :orange,
 label = "t(3)", size = (400,300))
plot!(x, pdf.(TDist(30), x),
 color = :black, linestyle = :dash,
 label = "t(30)", size = (400,300))
plot!(x, pdf.(Normal(), x),
 color = :black,
 label = "Standard Normal", size = (400,300))

xlims!(-4,5); ylims!(0,0.5); title!(L"\mathrm{pdf\,of\, t}(\nu)")
png("pdf")

  1. フーベルト・マニア. (2010). 熱中すること (冷たい数字の世界で絶対的な秩序を見つけ出した、ガウスの伝記): p69~72. ↩︎

  2. ホッグ他. (2013). Introduction to Mathematical Statistics(第7版): p171~172. ↩︎