순서통계량

정리¹

랜덤 샘플 $X_{1} , \cdots , X_{n}$ 가 서포트 $\mathcal{S} =(a,b)$ 인 확률밀도함수 $f(x)$ 를 가지는 연속확률분포를 따른다고 하자. 이들을 크기 순으로 나열한 확률 변수들을 $Y_{1} < \cdots < Y_{n}$ 와 같이 나타내도록 하면 그 조인트, 마지널 확률밀도함수들은 다음과 같다.

[1] 조인트: $$ g \left( y_{1} , \cdots , y_{n} \right) = \begin{cases} n! f (y_{1}) \cdots f (y_{n}) &, a < y_{1} < \cdots < y_{n} < b \\ 0 & , \text{elsewhere} \end{cases} $$
[2] 마지널: $Y_{k}$ 의 누적밀도함수를 $F(y_{k})$ 라고 하면 $$ g (y_{k}) = \begin{cases} {{ n! } \over { (k-1)! (n-k)! }} \left[ F (y_{k}) \right]^{k-1} \left[ 1 - F(y_{k}) \right]^{n-k} f(y_{k}) & , a < y_{k} < b \\ 0 & , \text{elsewhere} \end{cases} $$

설명

언뜻 수식이 많이 복잡해 보이겠지만, 직관적인 의미를 이해하고나면 그렇게 어렵지 않다. 수식에서 [1] 조인트 확률밀도함수 는 $n$ 개의 확률변수를 순서대로 나열하는 것이므로 순열로 구한 경우의 수 $n!$ 가 나타나며, [2] 마지널 확률밀도함수 는 $Y_{k}$ 하나와 $ y_{k}$ 보다 작은 $k-1$ 개의 확률변수와 큰 $n-k$ 개의 확률변수를 골라내는 조합에 따라 $\displaystyle {{ n! } \over { (k-1)! 1! (n-k)! }}$ 이 나타난다. 생략을 빼고 $\left\{ Y_{i} \right\}$ 의 순서대로 인자를 배치하면 그 모양은 다음과 같다. $$ g (y_{k}) = {{ n! } \over { (k-1)! 1! (n-k)! }} \left[ F (y_{k}) \right]^{k-1} f(y_{k}) \left[ 1 - F(y_{k}) \right]^{n-k} $$ 순서통계량이란 단어 그대로 순서가 주어진 상태의 통계량을 말하며, 랜덤샘플의 확률분포를 가정할 수 있을 때 가장 큰 값이나 두번째, 가장 작은 값, 정확히 중위권의 관측치가 뽑힐 확률 등을 알 수 있다. 정리 [2] 에 따르면 최소값과 최대값의 확률밀도함수는 다음과 같은 공식으로 곧바로 구할 수 있다. $$ Y_{1} = \min \left\{ X_{1} , \cdots , X_{n} \right\} \implies g_{1} (y_{1}) = n f(y_{1}) \left[ 1- F(y_{1}) \right]^{n-1} \\ Y_{n} = \max \left\{ X_{1} , \cdots , X_{n} \right\} \implies g_{n} (y_{n}) = n f(y_{n}) \left[ F(y_{n}) \right]^{n-1} $$ 실제 우리 삶에서 적용될 수 있는 예로는 저수지에서의 수위를 상상해보자. 만약 폭우가 쏟아져서 넘치거나 독이 무너지기라도 한다면 무척 큰 일이 될 것이다. 수위는 시계열 데이터로써 연간 평균도 구할 수 있고 표준편차도 알 수 있지만 그런 통계량들은 수해를 목전에 둔 위기상황에선 아무짝에도 쓸모가 없다. 그러나 애초부터 최고 수위에 관심을 가진다면 훨씬 안정적이고 합리적인 근거로 저수지의 규모를 정하고 축조할 수 있을 것이다. 이 예시를 보고 ‘솔직히 저수지가 넘치는 일은 잘 없지 않나?‘라는 생각이 든다면 이미 요지는 전달된 것이나 마찬가지다. 안 넘치는 이유가 바로 이런 것들을 이미 고려했기 때문이다.

증명

[1] ²

전략: 순열에서 $n!$ 이 나온다는 것만 알면 이미 끝난 것이나 다름 없다.

확률 변수의 변환: 변환된 다변량 확률 변수 $Y = ( Y_{1} , \cdots , Y_{n} )$ 의 조인트 확률밀도함수 $g$ 는 다음과 같다. $$ g(y_{1},\cdots,y_{n}) = \sum_{i=1}^{k} f \left[ w_{1i}(y_{1},\cdots , y_{n}) , \cdots , w_{ni}(y_{1},\cdots , y_{n}) \right] \left| J_{i} \right| $$

$X_{1} , \cdots , X_{n}$ 이 $Y_{1} , \cdots , Y_{n}$ 으로 변환되는 경우의 수는 $n!$ 이고, 어떻게 변하더라도 $x_{i} = y_{j}$ 와 같이 순서만 변할 뿐이기 때문에 자코비안은 $\pm 1$ 이다. 따라서 $$ \begin{align*} g \left( y_{1} , \cdots , y_{n} \right) =& \sum_{i=1}^{n!} | \pm 1 | f (y_{1}) \cdots f (y_{n}) \\ =& n! f (y_{1}) \cdots f (y_{n}) \end{align*} $$

■

[2] ³

전략: 마찬가지로 $n$ 개의 원소에서 $3$ 종류를 뽑는 조합의 수가 $\displaystyle {{ n! } \over { a! b!(n-a-b)! }}$ 라는 것만 알면 이미 끝난 것이나 다름 없다. 여기서 $a = k-1$, $b = 1$ 이라고 두면 된다.

$Y_{k}$ 하나와 $ y_{k}$ 보다 작은 $k-1$ 개의 확률변수가 $F(y_{k})$ 의 확률로, 큰 $n-k$ 개의 확률변수가 $[1-F(y_{k})]$ 의 확률로 선택되므로 조합 공식에 따라 $$ g (y_{k}) = {{ n! } \over { (k-1)! 1! (n-k)! }} \left[ F (y_{k}) \right]^{k-1} f(y_{k}) \left[ 1 - F(y_{k}) \right]^{n-k} $$

■

Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p231. ↩︎
Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p231. ↩︎
Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p232. ↩︎

순서통계량

정리1

설명

증명

[1] 2

[2] 3

정리¹

[1] ²

[2] ³