正規分布
📂確率分布論正規分布
定義

平均 μ∈R と分散 σ2>0 に対して次のような確率密度関数を持つ 連続確率分布 N(μ,σ2) を 正規分布normal distribution と呼ぶ。
f(x)=2πσ1exp[−21(σx−μ)2],x∈R
特に次のような確率密度関数を持つ 正規分布 N(0,12) を 標準正規分布と呼ぶ。
f(z)=2π1exp[−2z2]
説明
正規分布の他の名称としては ガウス分布Gaussian distribution がある。歴史的にはガウスが1809年に 最小二乗法 に関する研究において正規分布を紹介し、広く知られるようになった。正規分布の本質を初めて理解した人がガウスであるとは断言できないが、ガウスは正規分布の別名にふさわしい人物である。
1794年、わずか17歳だったガウスは日常や研究で出会う測定値から真の値を求める方法についてのアイディアを思いついた。ガウスはよく歩く道で自分の歩数を数えながらデータを集め、そのデータをグラフにして鐘形の曲線を得た。当時はヒストグラムという概念がない時代の発見で、ガウス自身はこれらの正規分布と最小二乗法の概念がすでに広く知られていて、皆が使用する技術だと考えていた。まさに圧倒的な天才性と言える。一方、正規分布に関連する多くの計算に ガウス積分 が使われることもある。
その後、正規分布は広く研究され、科学全般において不可欠なツールとなった。それほど馴染みがあるため、一般の人々は統計学とは結局データが正規分布をすると仮定して平均と分散を求めるだけだと思い込むことがある。もしそのような過小評価が統計学科への志望につながったならば悲しいことだが、非専門家にはそれだけの説明で十分かもしれない。それほど正規分布が重要で強力だという意味で言っている。
基本性質
モーメント母関数
- [1]: m(t)=exp(μt+2σ2t2),t∈R
- [2]: X∼N(μ,σ2) ならば
E(X)=Var(X)=μσ2
- [3]: 正規分布 に従う ランダムサンプル X:=(X1,⋯,Xn)∼N(μ,σ2) が与えられたとする。
(μ,σ2) に対する 十分統計量 T と 最尤推定量 (μ^,σ2) は次の通りである。
T=(μ^,σ2)=(k∑Xk,k∑Xk2)(n1k∑Xk,n1k∑(Xk−X)2)
- [4]: (自然対数を選んだ場合) 正規分布のエントロピーは次の通りである。
H=ln2πeσ2
- [5]: 2つの正規分布 N(μ,σ2) と N(μ1,σ12) の相対エントロピー は次の通りである。
DKL(N(μ,σ2)∥N(μ1,σ12))=log(σσ1)+2σ12σ2+(μ−μ1)2−21
定理
正規分布が具体的に何故重要かというと、長い説明は不要であり、次のようにただ定理を並べるだけで十分である。見てほしい。
- [a]: {Xk}k=1n は iid 確率変数 であり、確率分布 (μ,σ2) に従うとき、n→∞ の時
nσXn−μ→DN(0,1)
- [b]: X∼N(μ,σ2) ならば
V=(σX−μ)2∼χ2(1)
- [c]: Xi∼B(1,p) で Yn=X1+X2+⋯+Xn ならば Yn∼B(n,p) である
np(1−p)Yn−np→DN(0,1)
- [d]: Xn∼Poi(n) で Yn:=nXn−n の場合
Yn→DN(0,1)
- [e]: Tn∼t(n) ならば
Tn →DN(0,1)
- [f]: 2つの確率変数 W,V が独立であり、W∼N(0,1)、V∼χ2(r) ならば
T=V/rW∼t(r)
証明
戦略: ガウス積分を使用できるように指数部分を完全二乗形式にし、標準正規分布のモーメント母関数から導出し、置換により正規分布のモーメント母関数を得る。
ガウス積分:
∫−∞∞e−x2dx=π
[1]
Z:=σX−μ∼N(0,1) とすると、そのモーメント母関数は
mZ(t)======∫−∞∞exp(tz)2π1exp[−21z2]dzπ1∫−∞∞21exp[−21z2+tz]dzπ1∫−∞∞21exp[−21(z−t)2+2t2]dzπ1∫−∞∞21exp[−21(z−t)2]exp[2t2]dzexp[2t2]π1∫−∞∞21exp[−w2]2dwexp[2t2]
次に X∼N(μ,σ2) のモーメント母関数は
mX(t)=====E[exp(tX)]E[exp(t(σZ+μ))]exp(μt)E[exp(tσZ)]exp(μt)exp(2t2σ2)exp(μt+2σ2t2)
■
[2]
モーメント母関数で直接演繹する。
[3]
直接演繹する。
■
[4]
直接演繹する。
■
[a]
モーメント法を応用する。
■
[b]
確率密度関数で直接導出する。ガンマ関数とガンマ分布、カイ二乗分布の関係が用いられる。
■
[c]
中心極限定理で示す。
■
[d]
モーメント母関数で示す。
■
[e]
簡単ではない。スターリング近似を用いて確率密度関数の収束を示す。
■
[f]
簡単だが複雑である。確率密度関数で直接演繹する。
■
コード
以下はコーシー分布、t-分布、コーシー分布の確率密度関数を示す ジュリア のコードである。
@time using LaTeXStrings
@time using Distributions
@time using Plots
cd(@__DIR__)
x = -4:0.1:4
plot(x, pdf.(Cauchy(), x),
color = :red,
label = "Cauchy", size = (400,300))
plot!(x, pdf.(TDist(3), x),
color = :orange,
label = "t(3)", size = (400,300))
plot!(x, pdf.(TDist(30), x),
color = :black, linestyle = :dash,
label = "t(30)", size = (400,300))
plot!(x, pdf.(Normal(), x),
color = :black,
label = "Standard Normal", size = (400,300))
xlims!(-4,5); ylims!(0,0.5); title!(L"\mathrm{pdf\,of\, t}(\nu)")
png("pdf")