logo

正規分布 📂確率分布論

正規分布

定義

pdf.png

平均 μR\mu \in \mathbb{R} と分散 σ2>0\sigma^{2} > 0 に対して次のような確率密度関数を持つ 連続確率分布 N(μ,σ2)N \left( \mu,\sigma^{2} \right)正規分布normal distribution と呼ぶ。

f(x)=12πσexp[12(xμσ)2],xR f(x) = {{ 1 } \over { \sqrt{2 \pi} \sigma }} \exp \left[ - {{ 1 } \over { 2 }} \left( {{ x - \mu } \over { \sigma }} \right)^{2} \right] \qquad, x \in \mathbb{R}

特に次のような確率密度関数を持つ 正規分布 N(0,12)N \left( 0,1^{2} \right)標準正規分布と呼ぶ。

f(z)=12πexp[z22] f(z) = {{ 1 } \over { \sqrt{2 \pi} }} \exp \left[ - {{ z^{2} } \over { 2 }} \right]

説明

正規分布の他の名称としては ガウス分布Gaussian distribution がある。歴史的にはガウスが1809年に 最小二乗法 に関する研究において正規分布を紹介し、広く知られるようになった。正規分布の本質を初めて理解した人がガウスであるとは断言できないが、ガウスは正規分布の別名にふさわしい人物である。

1794年、わずか17歳だったガウスは日常や研究で出会う測定値から真の値を求める方法についてのアイディアを思いついた。ガウスはよく歩く道で自分の歩数を数えながらデータを集め、そのデータをグラフにして鐘形の曲線を得た。当時はヒストグラムという概念がない時代の発見で、ガウス自身はこれらの正規分布と最小二乗法の概念がすでに広く知られていて、皆が使用する技術だと考えていた1。まさに圧倒的な天才性と言える。一方、正規分布に関連する多くの計算に ガウス積分 が使われることもある。

その後、正規分布は広く研究され、科学全般において不可欠なツールとなった。それほど馴染みがあるため、一般の人々は統計学とは結局データが正規分布をすると仮定して平均と分散を求めるだけだと思い込むことがある。もしそのような過小評価が統計学科への志望につながったならば悲しいことだが、非専門家にはそれだけの説明で十分かもしれない。それほど正規分布が重要で強力だという意味で言っている。

基本性質

モーメント母関数

  • [1]: m(t)=exp(μt+σ2t22),tRm(t) = \exp \left( \mu t + {{ \sigma^{2} t^{2} } \over { 2 }} \right) \qquad , t \in \mathbb{R}

平均と分散

  • [2]: XN(μ,σ2)X \sim N\left( \mu , \sigma^{2} \right) ならば E(X)=μVar(X)=σ2 \begin{align*} E(X) =& \mu \\ \Var (X) =& \sigma^{2} \end{align*}

十分統計量と最尤推定量

  • [3]: 正規分布 に従う ランダムサンプル X:=(X1,,Xn)N(μ,σ2)\mathbf{X} := \left( X_{1} , \cdots , X_{n} \right) \sim N \left( \mu , \sigma^{2} \right) が与えられたとする。

(μ,σ2)\left( \mu, \sigma^{2} \right) に対する 十分統計量 TT最尤推定量 (μ^,σ2^)\left( \hat{\mu}, \widehat{\sigma^{2}} \right) は次の通りである。 T=(kXk,kXk2)(μ^,σ2^)=(1nkXk,1nk(XkX)2) \begin{align*} T =& \left( \sum_{k} X_{k}, \sum_{k} X_{k}^{2} \right) \\ \left( \hat{\mu}, \widehat{\sigma^{2}} \right) =& \left( {{ 1 } \over { n }} \sum_{k} X_{k}, {{ 1 } \over { n }} \sum_{k} \left( X_{k} - \overline{X} \right)^{2} \right) \end{align*}

エントロピー

  • [4]: (自然対数を選んだ場合) 正規分布のエントロピーは次の通りである。 H=ln2πeσ2 H = \ln \sqrt{2\pi e \sigma^{2}}

相対エントロピー(KLD)

  • [5]: 2つの正規分布 N(μ,σ2)N(\mu, \sigma^{2})N(μ1,σ12)N(\mu_{1}, \sigma_{1}^{2})相対エントロピー は次の通りである。

DKL(N(μ,σ2)N(μ1,σ12))=log(σ1σ)+σ2+(μμ1)22σ1212 D_{\text{KL}}\big( N(\mu, \sigma^{2}) \| N(\mu_{1}, \sigma_{1}^{2}) \big) = \log \left( \dfrac{\sigma_{1}}{\sigma} \right) + \dfrac{\sigma^{2} + (\mu - \mu_{1})^{2}}{2\sigma_{1}^{2}} - \dfrac{1}{2}

定理

正規分布が具体的に何故重要かというと、長い説明は不要であり、次のようにただ定理を並べるだけで十分である。見てほしい。

中心極限定理

  • [a]: {Xk}k=1n\left\{ X_{k} \right\}_{k=1}^{n}iid 確率変数 であり、確率分布 (μ,σ2)\left( \mu, \sigma^2 \right) に従うとき、nn \to \infty の時 nXnμσDN(0,1) \sqrt{n} {{ \overline{X}_n - \mu } \over {\sigma}} \overset{D}{\to} N (0,1)

カイ二乗分布との関係

  • [b]: XN(μ,σ2)X \sim N(\mu,\sigma ^2) ならば V=(Xμσ)2χ2(1) V=\left( { X - \mu \over \sigma} \right) ^2 \sim \chi ^2 (1)

二項分布の極限分布として標準正規分布導出

  • [c]: XiB(1,p)X_i \sim B(1,p)Yn=X1+X2++XnY_n = X_1 + X_2 + \cdots + X_n ならば YnB(n,p)Y_n \sim B(n,p) である Ynnpnp(1p)DN(0,1) { { Y_n - np } \over {\sqrt{ np(1-p) } } }\overset{D}{\to} N(0,1)

ポアソン分布の極限分布として標準正規分布導出

  • [d]: XnPoi(n)X_{n} \sim \text{Poi} \left( n \right)Yn:=Xnnn\displaystyle Y_{n} := {{ X_{n} - n } \over { \sqrt{n} }} の場合 YnDN(0,1) Y_{n} \overset{D}{\to} N(0,1)

スチューデントt分布の極限分布として標準正規分布導出

  • [e]: Tnt(n)T_n \sim t(n) ならば Tn DN(0,1) T_n \ \overset{D}{\to} N(0,1)

正規分布とカイ二乗分布からt分布導出

  • [f]: 2つの確率変数 W,VW,V独立であり、WN(0,1)W \sim N(0,1)Vχ2(r)V \sim \chi^{2} (r) ならば T=WV/rt(r) T = { {W} \over {\sqrt{V/r} } } \sim t(r)

証明

戦略: ガウス積分を使用できるように指数部分を完全二乗形式にし、標準正規分布のモーメント母関数から導出し、置換により正規分布のモーメント母関数を得る。

ガウス積分: ex2dx=π \int_{-\infty}^{\infty} e^{-x^2} dx= \sqrt{\pi}

[1] 2

Z:=XμσN(0,1)\displaystyle Z := {{ X - \mu } \over { \sigma }} \sim N(0,1) とすると、そのモーメント母関数は

mZ(t)=exp(tz)12πexp[12z2]dz=1π12exp[12z2+tz]dz=1π12exp[12(zt)2+t22]dz=1π12exp[12(zt)2]exp[t22]dz=exp[t22]1π12exp[w2]2dw=exp[t22] \begin{align*} m_{Z}(t) =& \int_{-\infty}^{\infty} \exp (tz) {{ 1 } \over { \sqrt{2 \pi} }} \exp \left[ - {{ 1 } \over { 2 }} z^{2} \right] dz \\ =& {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - {{ 1 } \over { 2 }} z^{2} + tz \right] dz \\ =& {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - {{ 1 } \over { 2 }} \left( z - t \right)^{2} + {{ t^{2} } \over { 2 }} \right] dz \\ =& {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - {{ 1 } \over { 2 }} \left( z - t \right)^{2} \right] \exp \left[ {{ t^{2} } \over { 2 }} \right] dz \\ =& \exp \left[ {{ t^{2} } \over { 2 }} \right] {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - w^{2} \right] \sqrt{2} dw \\ =& \exp \left[ {{ t^{2} } \over { 2 }} \right] \end{align*}

次に XN(μ,σ2)X \sim N \left( \mu , \sigma^{2} \right) のモーメント母関数は

mX(t)=E[exp(tX)]=E[exp(t(σZ+μ))]=exp(μt)E[exp(tσZ)]=exp(μt)exp(t2σ22)=exp(μt+σ2t22) \begin{align*} m_{X}(t) =& E \left[ \exp ( t X ) \right] \\ =& E \left[ \exp \left( t (\sigma Z + \mu) \right) \right] \\ =& \exp(\mu t) E \left[ \exp \left( t \sigma Z \right) \right] \\ =& \exp(\mu t) \exp \left( {{ t^{2} \sigma^{2} } \over { 2 }} \right) \\ =& \exp \left( \mu t + {{ \sigma^{2} t^{2} } \over { 2 }} \right) \end{align*}

[2]

モーメント母関数で直接演繹する。

[3]

直接演繹する。

[4]

直接演繹する。

[a]

モーメント法を応用する。

[b]

確率密度関数で直接導出する。ガンマ関数とガンマ分布、カイ二乗分布の関係が用いられる。

[c]

中心極限定理で示す。

[d]

モーメント母関数で示す。

[e]

簡単ではない。スターリング近似を用いて確率密度関数の収束を示す。

[f]

簡単だが複雑である。確率密度関数で直接演繹する。

コード

以下はコーシー分布、t-分布、コーシー分布の確率密度関数を示す ジュリア のコードである。

@time using LaTeXStrings
@time using Distributions
@time using Plots

cd(@__DIR__)

x = -4:0.1:4
plot(x, pdf.(Cauchy(), x),
 color = :red,
 label = "Cauchy", size = (400,300))
plot!(x, pdf.(TDist(3), x),
 color = :orange,
 label = "t(3)", size = (400,300))
plot!(x, pdf.(TDist(30), x),
 color = :black, linestyle = :dash,
 label = "t(30)", size = (400,300))
plot!(x, pdf.(Normal(), x),
 color = :black,
 label = "Standard Normal", size = (400,300))

xlims!(-4,5); ylims!(0,0.5); title!(L"\mathrm{pdf\,of\, t}(\nu)")
png("pdf")

  1. 후베르트 마니아. (2010). 뜨거운 몰입 (차가운 수의 세계에서 절대 질서를 찾아낸, 가우스 평전): p69~72. ↩︎

  2. Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p171~172. ↩︎