정규분포

정의

평균 $\mu \in \mathbb{R}$ 과 분산 $\sigma^{2} > 0$ 에 대해 다음과 같은 확률 밀도 함수를 가지는 연속 확률 분포 $N \left( \mu,\sigma^{2} \right)$ 를 정규 분포^{normal distribution}라고 한다.

$f(x) = {{ 1 } \over { \sqrt{2 \pi} \sigma }} \exp \left[ - {{ 1 } \over { 2 }} \left( {{ x - \mu } \over { \sigma }} \right)^{2} \right] \qquad, x \in \mathbb{R}$

특히 다음과 같은 확률 밀도를 함수를 가지는 정규분포 $N \left( 0,1^{2} \right)$ 를 표준정규분포라고 한다.

$f(z) = {{ 1 } \over { \sqrt{2 \pi} }} \exp \left[ - {{ z^{2} } \over { 2 }} \right]$

설명

정규분포의 다른 이름으로는 가우스 분포^{Gaussian distribution}가 있다. 역사적으로는 가우스가 1809년 최소제곱법에 대한 연구에서 정규분포를 소개함으로써 널리 알려지게 되었다. 정규분포의 실체를 처음으로 깨달은 사람이 가우스라고 단언할 수는 없지만, 가우스는 정규분포의 별칭이 될 자격이 있다.

1794년, 고작 열일곱살이었던 가우스는 일상이나 연구에서 접할 수 있는 측정값들에서 참값을 구하는 방법에 대한 영감을 떠올렸다. 가우스는 자주 다니는 길에서 자기 발걸음수를 세며 데이터를 모으고, 그 데이터를 그래프로 그려 종형의 곡선을 얻었다. 아직 히스토그램이라는 개념이 없던 시대의 발견인데, 가우스 스스로는 이러한 정규분포와 최소제곱법의 개념이 이미 널리 알려져있어 다들 사용하는 기술이라고 생각했었다¹. 그야말로 압도적인 천재성이라 할만하다. 한편 정규분포에 관련된 수 많은 계산에 가우스 적분이 쓰이기도 한다.

이후 정규분포는 널리 연구되어 과학 전반에 없어서는 안 될 툴이 되었다. 그만큼 친숙하다보니 문외한들은 통계학이란 결국 데이터가 정규분포를 따른다고 가정하고 평균 분산 구하면 끝이 아니냐는 착각을 하곤한다. 만약 그러한 과소평가가 통계학과 진학으로 이어졌다면 가슴 아픈 일이지만, 비전공자에게는 그 정도 설명이면 충분할지도 모르겠다. 그만큼 정규분포가 중요하고 강력하다는 뜻에서 하는 말이다.

기초 성질

적률 생성 함수

[1]: $m(t) = \exp \left( \mu t + {{ \sigma^{2} t^{2} } \over { 2 }} \right) \qquad , t \in \mathbb{R}$

평균과 분산

[2] : $X \sim N\left( \mu , \sigma^{2} \right)$ 면 $\begin{align*} E(X) =& \mu \\ \Var (X) =& \sigma^{2} \end{align*}$

충분통계량과 최대우도추정량

[3] :정규분포를 따르는 랜덤샘플 $\mathbf{X} := \left( X_{1} , \cdots , X_{n} \right) \sim N \left( \mu , \sigma^{2} \right)$ 이 주어져 있다고 하자.

$\left( \mu, \sigma^{2} \right)$ 에 대한 충분통계량 $T$ 와 최대우도추정량 $\left( \hat{\mu}, \widehat{\sigma^{2}} \right)$ 는 다음과 같다. $\begin{align*} T =& \left( \sum_{k} X_{k}, \sum_{k} X_{k}^{2} \right) \\ \left( \hat{\mu}, \widehat{\sigma^{2}} \right) =& \left( {{ 1 } \over { n }} \sum_{k} X_{k}, {{ 1 } \over { n }} \sum_{k} \left( X_{k} - \overline{X} \right)^{2} \right) \end{align*}$

엔트로피

[4] : (자연로그를 택했을 때) 정규분포의 엔트로피는 다음과 같다. $H = \ln \sqrt{2\pi e \sigma^{2}}$

상대적 엔트로피

[5]: 두 정규분포 $N(\mu, \sigma^{2})$ 와 $N(\mu_{1}, \sigma_{1}^{2})$ 간의 상대적 엔트로피(KLD)는 다음과 같다.

$D_{\text{KL}}\big( N(\mu, \sigma^{2}) \| N(\mu_{1}, \sigma_{1}^{2}) \big) = \log \left( \dfrac{\sigma_{1}}{\sigma} \right) + \dfrac{\sigma^{2} + (\mu - \mu_{1})^{2}}{2\sigma_{1}^{2}} - \dfrac{1}{2}$

정리

정규분포가 구체적으로 왜 중요한지는 긴 말도 필요없고, 다음과 같이 그저 정리들을 나열하는 것만으로도 충분하다. 보아라.

중심극한정리

[a]: $\left\{ X_{k} \right\}_{k=1}^{n}$ 이 iid 확률 변수들이고 확률분포 $\left( \mu, \sigma^2 \right)$ 를 따른다고 하면 $n \to \infty$ 일 때 $\sqrt{n} {{ \overline{X}_n - \mu } \over {\sigma}} \overset{D}{\to} N (0,1)$

카이제곱 분포와의 관계

[b]: $X \sim N(\mu,\sigma ^2)$ 면 $V=\left( { X - \mu \over \sigma} \right) ^2 \sim \chi ^2 (1)$

이항분포의 극한분포로써 표준정규분포 유도

[c]: $X_i \sim B(1,p)$ 이고 $Y_n = X_1 + X_2 + \cdots + X_n$ 이라고 하면 $Y_n \sim B(n,p)$ 이고 ${ { Y_n - np } \over {\sqrt{ np(1-p) } } }\overset{D}{\to} N(0,1)$

푸아송분포의 극한분포로써 표준정규분포 유도

[d]: $X_{n} \sim \text{Poi} \left( n \right)$ 이고 $\displaystyle Y_{n} := {{ X_{n} - n } \over { \sqrt{n} }}$ 이면 $Y_{n} \overset{D}{\to} N(0,1)$

스튜던트 t-분포의 극한분포로써 표준정규분포 유도

[e]: $T_n \sim t(n)$ 이면 $T_n \ \overset{D}{\to} N(0,1)$

정규분포와 카이제곱분포에서 t 분포 유도

[f]: 두 확률 변수 $W,V$ 가 독립이고 $W \sim N(0,1)$ , $V \sim \chi^{2} (r)$ 이라 하면 $T = { {W} \over {\sqrt{V/r} } } \sim t(r)$

증명

전략: 가우스 적분을 사용할 수 있게끔 지수 부분을 완전제곱꼴로 만들어 표준정규분포의 적률생성함수부터 유도하고, 치환으로 정규분포의 적률생성함수를 얻는다.

가우스 적분: $\int_{-\infty}^{\infty} e^{-x^2} dx= \sqrt{\pi}$

[1] ²

$\displaystyle Z := {{ X - \mu } \over { \sigma }} \sim N(0,1)$ 이라고 하면 그 적률생성함수는

$\begin{align*} m_{Z}(t) =& \int_{-\infty}^{\infty} \exp (tz) {{ 1 } \over { \sqrt{2 \pi} }} \exp \left[ - {{ 1 } \over { 2 }} z^{2} \right] dz \\ =& {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - {{ 1 } \over { 2 }} z^{2} + tz \right] dz \\ =& {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - {{ 1 } \over { 2 }} \left( z - t \right)^{2} + {{ t^{2} } \over { 2 }} \right] dz \\ =& {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - {{ 1 } \over { 2 }} \left( z - t \right)^{2} \right] \exp \left[ {{ t^{2} } \over { 2 }} \right] dz \\ =& \exp \left[ {{ t^{2} } \over { 2 }} \right] {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - w^{2} \right] \sqrt{2} dw \\ =& \exp \left[ {{ t^{2} } \over { 2 }} \right] \end{align*}$

그러면 $X \sim N \left( \mu , \sigma^{2} \right)$ 의 적률생성함수는

$\begin{align*} m_{X}(t) =& E \left[ \exp ( t X ) \right] \\ =& E \left[ \exp \left( t (\sigma Z + \mu) \right) \right] \\ =& \exp(\mu t) E \left[ \exp \left( t \sigma Z \right) \right] \\ =& \exp(\mu t) \exp \left( {{ t^{2} \sigma^{2} } \over { 2 }} \right) \\ =& \exp \left( \mu t + {{ \sigma^{2} t^{2} } \over { 2 }} \right) \end{align*}$

■

[2]

적률생성함수로 직접연역한다.

[3]

직접연역한다.

■

[4]

직접연역한다.

■

[a]

모먼트 메소드를 응용한다.

■

[b]

확률밀도함수로 직접 유도한다. 감마함수와 감마분포, 카이제곱분포 사이의 관계가 쓰인다.

■

[c]

중심극한정리로 보인다.

■

[d]

적률생성함수로 보인다.

■

[e]

쉽지 않다. 스털링 근사를 통해 확률밀도함수가 수렴함을 보인다.

■

[f]

쉬운데 복잡하다. 확률밀도함수로 직접 연역한다.

■

코드

다음은 코시분포, t-분포, 코시분포의 확률밀도함수를 보여주는 줄리아 코드다.

@time using LaTeXStrings
@time using Distributions
@time using Plots

cd(@__DIR__)

x = -4:0.1:4
plot(x, pdf.(Cauchy(), x),
 color = :red,
 label = "Cauchy", size = (400,300))
plot!(x, pdf.(TDist(3), x),
 color = :orange,
 label = "t(3)", size = (400,300))
plot!(x, pdf.(TDist(30), x),
 color = :black, linestyle = :dash,
 label = "t(30)", size = (400,300))
plot!(x, pdf.(Normal(), x),
 color = :black,
 label = "Standard Normal", size = (400,300))

xlims!(-4,5); ylims!(0,0.5); title!(L"\mathrm{pdf\,of\, t}(\nu)")
png("pdf")

후베르트 마니아. (2010). 뜨거운 몰입 (차가운 수의 세계에서 절대 질서를 찾아낸, 가우스 평전): p69~72. ↩︎
Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p171~172. ↩︎