logo

순서통계량 📂수리통계학

순서통계량

정리1

랜덤 샘플 X1,,XnX_{1} , \cdots , X_{n} 가 서포트 S=(a,b)\mathcal{S} =(a,b) 인 확률밀도함수 f(x)f(x) 를 가지는 연속확률분포를 따른다고 하자. 이들을 크기 순으로 나열한 확률 변수들을 Y1<<YnY_{1} < \cdots < Y_{n} 와 같이 나타내도록 하면 그 조인트, 마지널 확률밀도함수들은 다음과 같다.

  • [1] 조인트: g(y1,,yn)={n!f(y1)f(yn),a<y1<<yn<b0,elsewhere g \left( y_{1} , \cdots , y_{n} \right) = \begin{cases} n! f (y_{1}) \cdots f (y_{n}) &, a < y_{1} < \cdots < y_{n} < b \\ 0 & , \text{elsewhere} \end{cases}

  • [2] 마지널: YkY_{k} 의 누적밀도함수를 F(yk)F(y_{k}) 라고 하면 g(yk)={n!(k1)!(nk)![F(yk)]k1[1F(yk)]nkf(yk),a<yk<b0,elsewhere g (y_{k}) = \begin{cases} {{ n! } \over { (k-1)! (n-k)! }} \left[ F (y_{k}) \right]^{k-1} \left[ 1 - F(y_{k}) \right]^{n-k} f(y_{k}) & , a < y_{k} < b \\ 0 & , \text{elsewhere} \end{cases}

설명

언뜻 수식이 많이 복잡해 보이겠지만, 직관적인 의미를 이해하고나면 그렇게 어렵지 않다. 수식에서 [1] 조인트 확률밀도함수 는 nn 개의 확률변수를 순서대로 나열하는 것이므로 순열로 구한 경우의 수 n!n! 가 나타나며, [2] 마지널 확률밀도함수 는 YkY_{k} 하나와 yk y_{k} 보다 작은 k1k-1 개의 확률변수와 큰 nkn-k 개의 확률변수를 골라내는 조합에 따라 n!(k1)!1!(nk)!\displaystyle {{ n! } \over { (k-1)! 1! (n-k)! }} 이 나타난다. 생략을 빼고 {Yi}\left\{ Y_{i} \right\} 의 순서대로 인자를 배치하면 그 모양은 다음과 같다. g(yk)=n!(k1)!1!(nk)![F(yk)]k1f(yk)[1F(yk)]nk g (y_{k}) = {{ n! } \over { (k-1)! 1! (n-k)! }} \left[ F (y_{k}) \right]^{k-1} f(y_{k}) \left[ 1 - F(y_{k}) \right]^{n-k} 순서통계량이란 단어 그대로 순서가 주어진 상태의 통계량을 말하며, 랜덤샘플의 확률분포를 가정할 수 있을 때 가장 큰 값이나 두번째, 가장 작은 값, 정확히 중위권의 관측치가 뽑힐 확률 등을 알 수 있다. 정리 [2] 에 따르면 최소값과 최대값의 확률밀도함수는 다음과 같은 공식으로 곧바로 구할 수 있다. Y1=min{X1,,Xn}    g1(y1)=nf(y1)[1F(y1)]n1Yn=max{X1,,Xn}    gn(yn)=nf(yn)[F(yn)]n1 Y_{1} = \min \left\{ X_{1} , \cdots , X_{n} \right\} \implies g_{1} (y_{1}) = n f(y_{1}) \left[ 1- F(y_{1}) \right]^{n-1} \\ Y_{n} = \max \left\{ X_{1} , \cdots , X_{n} \right\} \implies g_{n} (y_{n}) = n f(y_{n}) \left[ F(y_{n}) \right]^{n-1} 실제 우리 삶에서 적용될 수 있는 예로는 저수지에서의 수위를 상상해보자. 만약 폭우가 쏟아져서 넘치거나 독이 무너지기라도 한다면 무척 큰 일이 될 것이다. 수위는 시계열 데이터로써 연간 평균도 구할 수 있고 표준편차도 알 수 있지만 그런 통계량들은 수해를 목전에 둔 위기상황에선 아무짝에도 쓸모가 없다. 그러나 애초부터 최고 수위에 관심을 가진다면 훨씬 안정적이고 합리적인 근거로 저수지의 규모를 정하고 축조할 수 있을 것이다. 이 예시를 보고 ‘솔직히 저수지가 넘치는 일은 잘 없지 않나?‘라는 생각이 든다면 이미 요지는 전달된 것이나 마찬가지다. 안 넘치는 이유가 바로 이런 것들을 이미 고려했기 때문이다.

증명

[1] 2

전략: 순열에서 n!n! 이 나온다는 것만 알면 이미 끝난 것이나 다름 없다.


확률 변수의 변환: 변환된 다변량 확률 변수 Y=(Y1,,Yn)Y = ( Y_{1} , \cdots , Y_{n} ) 의 조인트 확률밀도함수 gg 는 다음과 같다. g(y1,,yn)=i=1kf[w1i(y1,,yn),,wni(y1,,yn)]Ji g(y_{1},\cdots,y_{n}) = \sum_{i=1}^{k} f \left[ w_{1i}(y_{1},\cdots , y_{n}) , \cdots , w_{ni}(y_{1},\cdots , y_{n}) \right] \left| J_{i} \right|

X1,,XnX_{1} , \cdots , X_{n}Y1,,YnY_{1} , \cdots , Y_{n} 으로 변환되는 경우의 수는 n!n! 이고, 어떻게 변하더라도 xi=yjx_{i} = y_{j} 와 같이 순서만 변할 뿐이기 때문에 자코비안은 ±1\pm 1 이다. 따라서 g(y1,,yn)=i=1n!±1f(y1)f(yn)=n!f(y1)f(yn) \begin{align*} g \left( y_{1} , \cdots , y_{n} \right) =& \sum_{i=1}^{n!} | \pm 1 | f (y_{1}) \cdots f (y_{n}) \\ =& n! f (y_{1}) \cdots f (y_{n}) \end{align*}

[2] 3

전략: 마찬가지로 nn 개의 원소에서 33 종류를 뽑는 조합의 수가 n!a!b!(nab)!\displaystyle {{ n! } \over { a! b!(n-a-b)! }} 라는 것만 알면 이미 끝난 것이나 다름 없다. 여기서 a=k1a = k-1, b=1b = 1 이라고 두면 된다.


YkY_{k} 하나와 yk y_{k} 보다 작은 k1k-1 개의 확률변수가 F(yk)F(y_{k}) 의 확률로, 큰 nkn-k 개의 확률변수가 [1F(yk)][1-F(y_{k})] 의 확률로 선택되므로 조합 공식에 따라 g(yk)=n!(k1)!1!(nk)![F(yk)]k1f(yk)[1F(yk)]nk g (y_{k}) = {{ n! } \over { (k-1)! 1! (n-k)! }} \left[ F (y_{k}) \right]^{k-1} f(y_{k}) \left[ 1 - F(y_{k}) \right]^{n-k}


  1. Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p231. ↩︎

  2. Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p231. ↩︎

  3. Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p232. ↩︎