logo

정규분포 📂확률분포론

정규분포

정의

pdf.png

평균 $\mu \in \mathbb{R}$ 과 분산 $\sigma^{2} > 0$ 에 대해 다음과 같은 확률 밀도 함수를 가지는 연속 확률 분포 $N \left( \mu,\sigma^{2} \right)$ 를 정규 분포normal distribution라고 한다.

$$ f(x) = {{ 1 } \over { \sqrt{2 \pi} \sigma }} \exp \left[ - {{ 1 } \over { 2 }} \left( {{ x - \mu } \over { \sigma }} \right)^{2} \right] \qquad, x \in \mathbb{R} $$

특히 다음과 같은 확률 밀도를 함수를 가지는 정규분포 $N \left( 0,1^{2} \right)$ 를 표준정규분포라고 한다.

$$ f(z) = {{ 1 } \over { \sqrt{2 \pi} }} \exp \left[ - {{ z^{2} } \over { 2 }} \right] $$

설명

정규분포의 다른 이름으로는 가우스 분포Gaussian distribution가 있다. 역사적으로는 가우스가 1809년 최소제곱법에 대한 연구에서 정규분포를 소개함으로써 널리 알려지게 되었다. 정규분포의 실체를 처음으로 깨달은 사람이 가우스라고 단언할 수는 없지만, 가우스는 정규분포의 별칭이 될 자격이 있다.

1794년, 고작 열일곱살이었던 가우스는 일상이나 연구에서 접할 수 있는 측정값들에서 참값을 구하는 방법에 대한 영감을 떠올렸다. 가우스는 자주 다니는 길에서 자기 발걸음수를 세며 데이터를 모으고, 그 데이터를 그래프로 그려 종형의 곡선을 얻었다. 아직 히스토그램이라는 개념이 없던 시대의 발견인데, 가우스 스스로는 이러한 정규분포와 최소제곱법의 개념이 이미 널리 알려져있어 다들 사용하는 기술이라고 생각했었다1. 그야말로 압도적인 천재성이라 할만하다. 한편 정규분포에 관련된 수 많은 계산에 가우스 적분이 쓰이기도 한다.

이후 정규분포는 널리 연구되어 과학 전반에 없어서는 안 될 툴이 되었다. 그만큼 친숙하다보니 문외한들은 통계학이란 결국 데이터가 정규분포를 따른다고 가정하고 평균 분산 구하면 끝이 아니냐는 착각을 하곤한다. 만약 그러한 과소평가가 통계학과 진학으로 이어졌다면 가슴 아픈 일이지만, 비전공자에게는 그 정도 설명이면 충분할지도 모르겠다. 그만큼 정규분포가 중요하고 강력하다는 뜻에서 하는 말이다.

기초 성질

적률 생성 함수

  • [1]: $$m(t) = \exp \left( \mu t + {{ \sigma^{2} t^{2} } \over { 2 }} \right) \qquad , t \in \mathbb{R}$$

평균과 분산

  • [2] : $X \sim N\left( \mu , \sigma^{2} \right)$ 면 $$ \begin{align*} E(X) =& \mu \\ \operatorname{Var} (X) =& \sigma^{2} \end{align*} $$

충분통계량과 최대우도추정량

  • [3] :정규분포를 따르는 랜덤샘플 $\mathbf{X} := \left( X_{1} , \cdots , X_{n} \right) \sim N \left( \mu , \sigma^{2} \right)$ 이 주어져 있다고 하자.

$\left( \mu, \sigma^{2} \right)$ 에 대한 충분통계량 $T$ 와 최대우도추정량 $\left( \hat{\mu}, \widehat{\sigma^{2}} \right)$ 는 다음과 같다. $$ \begin{align*} T =& \left( \sum_{k} X_{k}, \sum_{k} X_{k}^{2} \right) \\ \left( \hat{\mu}, \widehat{\sigma^{2}} \right) =& \left( {{ 1 } \over { n }} \sum_{k} X_{k}, {{ 1 } \over { n }} \sum_{k} \left( X_{k} - \overline{X} \right)^{2} \right) \end{align*} $$

엔트로피

  • [4] : (자연로그를 택했을 때) 정규분포의 엔트로피는 다음과 같다. $$ H = \ln \sqrt{2\pi e \sigma^{2}} $$

정리

정규분포가 구체적으로 왜 중요한지는 긴 말도 필요없고, 다음과 같이 그저 정리들을 나열하는 것만으로도 충분하다. 보아라.

중심극한정리

  • [a]: $\left\{ X_{k} \right\}_{k=1}^{n}$ 이 iid 확률 변수들이고 확률분포 $\left( \mu, \sigma^2 \right) $를 따른다고 하면 $n \to \infty$ 일 때 $$ \sqrt{n} {{ \overline{X}_n - \mu } \over {\sigma}} \overset{D}{\to} N (0,1) $$

카이제곱 분포와의 관계

  • [b]: $X \sim N(\mu,\sigma ^2)$면 $$ V=\left( { X - \mu \over \sigma} \right) ^2 \sim \chi ^2 (1) $$

이항분포의 극한분포로써 표준정규분포 유도

  • [c]: $X_i \sim B(1,p)$ 이고 $Y_n = X_1 + X_2 + \cdots + X_n$ 이라고 하면 $Y_n \sim B(n,p)$ 이고 $$ { { Y_n - np } \over {\sqrt{ np(1-p) } } }\overset{D}{\to} N(0,1) $$

푸아송분포의 극한분포로써 표준정규분포 유도

  • [d]: $X_{n} \sim \text{Poi} \left( n \right)$ 이고 $\displaystyle Y_{n} := {{ X_{n} - n } \over { \sqrt{n} }}$ 이면 $$ Y_{n} \overset{D}{\to} N(0,1) $$

스튜던트 t-분포의 극한분포로써 표준정규분포 유도

  • [e]: $T_n \sim t(n)$ 이면 $$ T_n \ \overset{D}{\to} N(0,1) $$

정규분포와 카이제곱분포에서 t 분포 유도

  • [f]: 두 확률 변수 $W,V$ 가 독립이고 $W \sim N(0,1)$, $V \sim \chi^{2} (r)$ 이라 하면 $$ T = { {W} \over {\sqrt{V/r} } } \sim t(r) $$

증명

전략: 가우스 적분을 사용할 수 있게끔 지수 부분을 완전제곱꼴로 만들어 표준정규분포의 적률생성함수부터 유도하고, 치환으로 정규분포의 적률생성함수를 얻는다.

가우스 적분: $$ \int_{-\infty}^{\infty} e^{-x^2} dx= \sqrt{\pi} $$

[1] 2

$\displaystyle Z := {{ X - \mu } \over { \sigma }} \sim N(0,1)$ 이라고 하면 그 적률생성함수는

$$ \begin{align*} m_{Z}(t) =& \int_{-\infty}^{\infty} \exp (tz) {{ 1 } \over { \sqrt{2 \pi} }} \exp \left[ - {{ 1 } \over { 2 }} z^{2} \right] dz \\ =& {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - {{ 1 } \over { 2 }} z^{2} + tz \right] dz \\ =& {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - {{ 1 } \over { 2 }} \left( z - t \right)^{2} + {{ t^{2} } \over { 2 }} \right] dz \\ =& {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - {{ 1 } \over { 2 }} \left( z - t \right)^{2} \right] \exp \left[ {{ t^{2} } \over { 2 }} \right] dz \\ =& \exp \left[ {{ t^{2} } \over { 2 }} \right] {{ 1 } \over { \sqrt{\pi} }} \int_{-\infty}^{\infty} {{ 1 } \over { \sqrt{2} }} \exp \left[ - w^{2} \right] \sqrt{2} dw \\ =& \exp \left[ {{ t^{2} } \over { 2 }} \right] \end{align*} $$

그러면 $X \sim N \left( \mu , \sigma^{2} \right)$ 의 적률생성함수는

$$ \begin{align*} m_{X}(t) =& E \left[ \exp ( t X ) \right] \\ =& E \left[ \exp \left( t (\sigma Z + \mu) \right) \right] \\ =& \exp(\mu t) E \left[ \exp \left( t \sigma Z \right) \right] \\ =& \exp(\mu t) \exp \left( {{ t^{2} \sigma^{2} } \over { 2 }} \right) \\ =& \exp \left( \mu t + {{ \sigma^{2} t^{2} } \over { 2 }} \right) \end{align*} $$

[2]

적률생성함수로 직접연역한다.

[3]

직접연역한다.

[4]

직접연역한다.

[a]

모먼트 메소드를 응용한다.

[b]

확률밀도함수로 직접 유도한다. 감마함수와 감마분포, 카이제곱분포 사이의 관계가 쓰인다.

[c]

중심극한정리로 보인다.

[d]

적률생성함수로 보인다.

[e]

쉽지 않다. 스털링 근사를 통해 확률밀도함수가 수렴함을 보인다.

[f]

쉬운데 복잡하다. 확률밀도함수로 직접 연역한다.

코드

다음은 코시분포, t-분포, 코시분포의 확률밀도함수를 보여주는 줄리아 코드다.

@time using LaTeXStrings
@time using Distributions
@time using Plots

cd(@__DIR__)

x = -4:0.1:4
plot(x, pdf.(Cauchy(), x),
 color = :red,
 label = "Cauchy", size = (400,300))
plot!(x, pdf.(TDist(3), x),
 color = :orange,
 label = "t(3)", size = (400,300))
plot!(x, pdf.(TDist(30), x),
 color = :black, linestyle = :dash,
 label = "t(30)", size = (400,300))
plot!(x, pdf.(Normal(), x),
 color = :black,
 label = "Standard Normal", size = (400,300))

xlims!(-4,5); ylims!(0,0.5); title!(L"\mathrm{pdf\,of\, t}(\nu)")
png("pdf")

  1. 후베르트 마니아. (2010). 뜨거운 몰입 (차가운 수의 세계에서 절대 질서를 찾아낸, 가우스 평전): p69~72. ↩︎

  2. Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p171~172. ↩︎