正規分布

定義

平均 $\mu \in \mathbb{R}$ と分散 $\sigma^{2} > 0$ に対して次のような確率密度関数を持つ連続確率分布 $N \left( \mu,\sigma^{2} \right)$ を 正規分布^{normal distribution} と呼ぶ。

$$ f(x) = {{ 1 } \over { \sqrt{2 \pi} \sigma }} \exp \left[ - {{ 1 } \over { 2 }} \left( {{ x - \mu } \over { \sigma }} \right)^{2} \right] \qquad, x \in \mathbb{R} $$

特に次のような確率密度関数を持つ正規分布 $N \left( 0,1^{2} \right)$ を 標準正規分布と呼ぶ。

$$ f(z) = {{ 1 } \over { \sqrt{2 \pi} }} \exp \left[ - {{ z^{2} } \over { 2 }} \right] $$

説明

正規分布の他の名称としては ガウス分布^{Gaussian distribution} がある。歴史的にはガウスが1809年に最小二乗法に関する研究において正規分布を紹介し、広く知られるようになった。正規分布の本質を初めて理解した人がガウスであるとは断言できないが、ガウスは正規分布の別名にふさわしい人物である。

1794年、わずか17歳だったガウスは日常や研究で出会う測定値から真の値を求める方法についてのアイディアを思いついた。ガウスはよく歩く道で自分の歩数を数えながらデータを集め、そのデータをグラフにして鐘形の曲線を得た。当時はヒストグラムという概念がない時代の発見で、ガウス自身はこれらの正規分布と最小二乗法の概念がすでに広く知られていて、皆が使用する技術だと考えていた¹。まさに圧倒的な天才性と言える。一方、正規分布に関連する多くの計算にガウス積分が使われることもある。

その後、正規分布は広く研究され、科学全般において不可欠なツールとなった。それほど馴染みがあるため、一般の人々は統計学とは結局データが正規分布をすると仮定して平均と分散を求めるだけだと思い込むことがある。もしそのような過小評価が統計学科への志望につながったならば悲しいことだが、非専門家にはそれだけの説明で十分かもしれない。それほど正規分布が重要で強力だという意味で言っている。

基本性質

モーメント母関数

[1]: $$m(t) = \exp \left( \mu t + {{ \sigma^{2} t^{2} } \over { 2 }} \right) \qquad , t \in \mathbb{R}$$

平均と分散

[2]: $X \sim N\left( \mu , \sigma^{2} \right)$ ならば $$ \begin{align*} E(X) =& \mu \\ \Var (X) =& \sigma^{2} \end{align*} $$

十分統計量と最尤推定量

[3]: 正規分布に従うランダムサンプル $\mathbf{X} := \left( X_{1} , \cdots , X_{n} \right) \sim N \left( \mu , \sigma^{2} \right)$ が与えられたとする。

$\left( \mu, \sigma^{2} \right)$ に対する十分統計量 $T$ と最尤推定量 $\left( \hat{\mu}, \widehat{\sigma^{2}} \right)$ は次の通りである。 $$ \begin{align*} T =& \left( \sum_{k} X_{k}, \sum_{k} X_{k}^{2} \right) \\ \left( \hat{\mu}, \widehat{\sigma^{2}} \right) =& \left( {{ 1 } \over { n }} \sum_{k} X_{k}, {{ 1 } \over { n }} \sum_{k} \left( X_{k} - \overline{X} \right)^{2} \right) \end{align*} $$

エントロピー

[4]: (自然対数を選んだ場合) 正規分布のエントロピーは次の通りである。 $$ H = \ln \sqrt{2\pi e \sigma^{2}} $$

相対エントロピー(KLD)

[5]: 2つの正規分布 $N(\mu, \sigma^{2})$ と $N(\mu_{1}, \sigma_{1}^{2})$ の相対エントロピーは次の通りである。

$$ D_{\text{KL}}\big( N(\mu, \sigma^{2}) \| N(\mu_{1}, \sigma_{1}^{2}) \big) = \log \left( \dfrac{\sigma_{1}}{\sigma} \right) + \dfrac{\sigma^{2} + (\mu - \mu_{1})^{2}}{2\sigma_{1}^{2}} - \dfrac{1}{2} $$

定理

正規分布が具体的に何故重要かというと、長い説明は不要であり、次のようにただ定理を並べるだけで十分である。見てほしい。

中心極限定理

[a]: $\left\{ X_{k} \right\}_{k=1}^{n}$ は iid 確率変数であり、確率分布 $\left( \mu, \sigma^2 \right) $ に従うとき、$n \to \infty$ の時 $$ \sqrt{n} {{ \overline{X}_n - \mu } \over {\sigma}} \overset{D}{\to} N (0,1) $$

カイ二乗分布との関係

[b]: $X \sim N(\mu,\sigma ^2)$ ならば $$ V=\left( { X - \mu \over \sigma} \right) ^2 \sim \chi ^2 (1) $$

二項分布の極限分布として標準正規分布導出

[c]: $X_i \sim B(1,p)$ で $Y_n = X_1 + X_2 + \cdots + X_n$ ならば $Y_n \sim B(n,p)$ である $$ { { Y_n - np } \over {\sqrt{ np(1-p) } } }\overset{D}{\to} N(0,1) $$

ポアソン分布の極限分布として標準正規分布導出

[d]: $X_{n} \sim \text{Poi} \left( n \right)$ で $\displaystyle Y_{n} := {{ X_{n} - n } \over { \sqrt{n} }}$ の場合 $$ Y_{n} \overset{D}{\to} N(0,1) $$

スチューデントt分布の極限分布として標準正規分布導出

[e]: $T_n \sim t(n)$ ならば $$ T_n \ \overset{D}{\to} N(0,1) $$

正規分布とカイ二乗分布からt分布導出

[f]: 2つの確率変数 $W,V$ が独立であり、$W \sim N(0,1)$、$V \sim \chi^{2} (r)$ ならば $$ T = { {W} \over {\sqrt{V/r} } } \sim t(r) $$

証明

戦略: ガウス積分を使用できるように指数部分を完全二乗形式にし、標準正規分布のモーメント母関数から導出し、置換により正規分布のモーメント母関数を得る。

ガウス積分: $$ \int_{-\infty}^{\infty} e^{-x^2} dx= \sqrt{\pi} $$

[1] ²

$\displaystyle Z := {{ X - \mu } \over { \sigma }} \sim N(0,1)$ とすると、そのモーメント母関数は

$$ \begin{align*} m_{Z}(t) =& \int_{-\infty}^{\infty} \exp (tz) {{ 1 } \over { \sqrt{2 \pi} }} \exp \left[ - {{ 1 } \over { 2 }} z^{2} \right] dz \\ =& {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - {{ 1 } \over { 2 }} z^{2} + tz \right] dz \\ =& {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - {{ 1 } \over { 2 }} \left( z - t \right)^{2} + {{ t^{2} } \over { 2 }} \right] dz \\ =& {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - {{ 1 } \over { 2 }} \left( z - t \right)^{2} \right] \exp \left[ {{ t^{2} } \over { 2 }} \right] dz \\ =& \exp \left[ {{ t^{2} } \over { 2 }} \right] {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - w^{2} \right] \sqrt{2} dw \\ =& \exp \left[ {{ t^{2} } \over { 2 }} \right] \end{align*} $$

次に $X \sim N \left( \mu , \sigma^{2} \right)$ のモーメント母関数は

$$ \begin{align*} m_{X}(t) =& E \left[ \exp ( t X ) \right] \\ =& E \left[ \exp \left( t (\sigma Z + \mu) \right) \right] \\ =& \exp(\mu t) E \left[ \exp \left( t \sigma Z \right) \right] \\ =& \exp(\mu t) \exp \left( {{ t^{2} \sigma^{2} } \over { 2 }} \right) \\ =& \exp \left( \mu t + {{ \sigma^{2} t^{2} } \over { 2 }} \right) \end{align*} $$

■

[2]

モーメント母関数で直接演繹する。

[3]

直接演繹する。

■

[4]

直接演繹する。

■

[a]

モーメント法を応用する。

■

[b]

確率密度関数で直接導出する。ガンマ関数とガンマ分布、カイ二乗分布の関係が用いられる。

■

[c]

中心極限定理で示す。

■

[d]

モーメント母関数で示す。

■

[e]

簡単ではない。スターリング近似を用いて確率密度関数の収束を示す。

■

[f]

簡単だが複雑である。確率密度関数で直接演繹する。

■

コード

以下はコーシー分布、t-分布、コーシー分布の確率密度関数を示すジュリアのコードである。

@time using LaTeXStrings
@time using Distributions
@time using Plots

cd(@__DIR__)

x = -4:0.1:4
plot(x, pdf.(Cauchy(), x),
 color = :red,
 label = "Cauchy", size = (400,300))
plot!(x, pdf.(TDist(3), x),
 color = :orange,
 label = "t(3)", size = (400,300))
plot!(x, pdf.(TDist(30), x),
 color = :black, linestyle = :dash,
 label = "t(30)", size = (400,300))
plot!(x, pdf.(Normal(), x),
 color = :black,
 label = "Standard Normal", size = (400,300))

xlims!(-4,5); ylims!(0,0.5); title!(L"\mathrm{pdf\,of\, t}(\nu)")
png("pdf")

후베르트 마니아. (2010). 뜨거운 몰입 (차가운 수의 세계에서 절대 질서를 찾아낸, 가우스 평전): p69~72. ↩︎
Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p171~172. ↩︎