t-분포
정의 1
자유도 $\nu > 0$ 에 대해 다음과 같은 확률 밀도 함수를 가지는 연속 확률 분포 $t \left( \nu \right)$ 를 t-분포라고 한다. $$ f(x) = {{ \Gamma \left( {{ \nu + 1 } \over { 2 }} \right) } \over { \sqrt{\nu \pi} \Gamma \left( {{ \nu } \over { 2 }} \right) }} \left( 1 + {{ x^{2} } \over { \nu }} \right)^{- {{ \nu + 1 } \over { 2 }}} \qquad ,x \in \mathbb{R} $$
- $\Gamma (\nu)$ 는 감마 함수다.
설명
t-분포는 지금도 맥주로 유명한 기네스 양조 공장에서 일하던 윌리엄 고셋william S. Gosset이 발견하고 발표해 널리 알려진 분포로써, 당시에는 기업에 묶여있는 몸이었던지라 학생Student라는 필명으로 투고해 스튜던트 t-분포라 불리기도 한다. 통계학과 신입생의 경우에는 표본이 정규분포를 따른다고 가정은 하지만 실제로는 30개에 못 미치는 소표본일 때 사용하는 분포로써 처음 접하게 된다. $\nu \ge 30$ 일 때는 거의 정규분포에 수렴했다고 본다.
한편, 특히 $\nu = 1$ 일 때의 분포를 코시 분포라고 한다.
기초 성질
적률 생성 함수
- [1]: $t$-분포는 적률 생성 함수가 존재하지 않는다.
평균과 분산
- [2]: $X \sim t (\nu)$ 이면 $$ \begin{align*} E(X) =& 0 & \qquad , \nu >1 \\ \operatorname{Var}(X) =& {{ \nu } \over { \nu - 2 }} & \qquad , \nu > 2 \end{align*} $$
정리
두 확률 변수 $W,V$ 가 독립이고 $W \sim N(0,1)$, $V \sim \chi^{2} (r)$ 이라 하자.
$k$차 적률
- [a]: $k < r$ 이면 $\displaystyle T := { {W} \over {\sqrt{V/r} } }$ 는 $k$차 적률이 존재하고 $$ E T^{k} = E W^{k} {{ 2^{-k/2} \Gamma \left( {{ r } \over { 2 }} - {{ k } \over { 2 }} \right) } \over { \Gamma \left( {{ r } \over { 2 }} \right) r^{-k/2} }} $$
표준정규분포와 카이제곱분포에서 유도
- [b]: $${ {W} \over {\sqrt{V/r} } } \sim t(r)$$
스튜던트 t-분포의 극한분포로써 표준정규분포 유도
- [c]: $T_n \sim t(n)$ 이면 $$ T_n \ \overset{D}{\to} N(0,1) $$
F-분포 유도
- [d]: 자유도 $\nu > 0$ 인 t-분포를 따르는 확률변수 $X \sim t(\nu)$ 에 대해 다음과 같이 정의된 $Y$ 는 F-분포 $F (1,\nu)$ 을 따른다. $$ Y := X^{2} \sim F (1,\nu) $$
- $N \left( \mu , \sigma^{2} \right)$ 는 평균이 $\mu$ 고 분산이 $\sigma^{2}$ 인 정규 분포다.
- $\chi^{2} \left( r \right)$ 은 자유도 $r$ 인 카이제곱 분포다.
증명
[1]
확률 변수의 적률 생성 함수가 존재한다는 것은 모든 $k \in \mathbb{N}$ 에 대해 $k$차 적률이 존재한다는 것이다. 그러나 정리 [a]에서 t-분포의 $k$차 적률은 $k < r$ 일 때 존재하므로 적률 생성 함수가 존재할 수 없다.
■
[2]
■
[a]
카이제곱 분포의 적률: $X \sim \chi^{2} (r)$ 이라고 하자. $k > - r/ 2$ 이면 $k$차 적률이 존재하고 $$ E X^{k} = {{ 2^{k} \Gamma (r/2 + k) } \over { \Gamma (r/2) }} $$
$k < r$ 의 양변에 $-1/2$ 를 곱하면 $-k/2 > -r/2$ 이므로 $$ \begin{align*} E T^{k} =& E \left[ W^{k} \left( {{ V } \over { r }} \right)^{-k/2} \right] \\ =& E W^{k} E \left( {{ V } \over { r }} \right)^{-k/2} \\ =& E W^{k} {{ 2^{-k/2} \Gamma \left( {{ r } \over { 2 }} - {{ k } \over { 2 }} \right) } \over { \Gamma \left( {{ r } \over { 2 }} \right) r^{-k/2} }} \end{align*} $$
■
[b]
■
[c]
■
[d]
■
코드
다음은 코시분포, t-분포, 코시분포의 확률밀도함수를 보여주는 줄리아 코드다.
@time using LaTeXStrings
@time using Distributions
@time using Plots
cd(@__DIR__)
x = -4:0.1:4
plot(x, pdf.(Cauchy(), x),
color = :red,
label = "Cauchy", size = (400,300))
plot!(x, pdf.(TDist(3), x),
color = :orange,
label = "t(3)", size = (400,300))
plot!(x, pdf.(TDist(30), x),
color = :black, linestyle = :dash,
label = "t(30)", size = (400,300))
plot!(x, pdf.(Normal(), x),
color = :black,
label = "Standard Normal", size = (400,300))
xlims!(-4,5); ylims!(0,0.5); title!(L"\mathrm{pdf\,of\, t}(\nu)")
png("pdf")
Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p191. ↩︎