순서통계량
📂수리통계학순서통계량
정리
랜덤 샘플 X1,⋯,Xn 가 서포트 S=(a,b) 인 확률밀도함수 f(x) 를 가지는 연속확률분포를 따른다고 하자. 이들을 크기 순으로 나열한 확률 변수들을 Y1<⋯<Yn 와 같이 나타내도록 하면 그 조인트, 마지널 확률밀도함수들은 다음과 같다.
[1] 조인트:
g(y1,⋯,yn)={n!f(y1)⋯f(yn)0,a<y1<⋯<yn<b,elsewhere
[2] 마지널: Yk 의 누적밀도함수를 F(yk) 라고 하면
g(yk)={(k−1)!(n−k)!n![F(yk)]k−1[1−F(yk)]n−kf(yk)0,a<yk<b,elsewhere
설명
언뜻 수식이 많이 복잡해 보이겠지만, 직관적인 의미를 이해하고나면 그렇게 어렵지 않다. 수식에서 [1] 조인트 확률밀도함수 는 n 개의 확률변수를 순서대로 나열하는 것이므로 순열로 구한 경우의 수 n! 가 나타나며, [2] 마지널 확률밀도함수 는 Yk 하나와 yk 보다 작은 k−1 개의 확률변수와 큰 n−k 개의 확률변수를 골라내는 조합에 따라 (k−1)!1!(n−k)!n! 이 나타난다. 생략을 빼고 {Yi} 의 순서대로 인자를 배치하면 그 모양은 다음과 같다.
g(yk)=(k−1)!1!(n−k)!n![F(yk)]k−1f(yk)[1−F(yk)]n−k
순서통계량이란 단어 그대로 순서가 주어진 상태의 통계량을 말하며, 랜덤샘플의 확률분포를 가정할 수 있을 때 가장 큰 값이나 두번째, 가장 작은 값, 정확히 중위권의 관측치가 뽑힐 확률 등을 알 수 있다. 정리 [2] 에 따르면 최소값과 최대값의 확률밀도함수는 다음과 같은 공식으로 곧바로 구할 수 있다.
Y1=min{X1,⋯,Xn}⟹g1(y1)=nf(y1)[1−F(y1)]n−1Yn=max{X1,⋯,Xn}⟹gn(yn)=nf(yn)[F(yn)]n−1
실제 우리 삶에서 적용될 수 있는 예로는 저수지에서의 수위를 상상해보자. 만약 폭우가 쏟아져서 넘치거나 독이 무너지기라도 한다면 무척 큰 일이 될 것이다. 수위는 시계열 데이터로써 연간 평균도 구할 수 있고 표준편차도 알 수 있지만 그런 통계량들은 수해를 목전에 둔 위기상황에선 아무짝에도 쓸모가 없다. 그러나 애초부터 최고 수위에 관심을 가진다면 훨씬 안정적이고 합리적인 근거로 저수지의 규모를 정하고 축조할 수 있을 것이다. 이 예시를 보고 ‘솔직히 저수지가 넘치는 일은 잘 없지 않나?‘라는 생각이 든다면 이미 요지는 전달된 것이나 마찬가지다. 안 넘치는 이유가 바로 이런 것들을 이미 고려했기 때문이다.
증명
[1]
전략: 순열에서 n! 이 나온다는 것만 알면 이미 끝난 것이나 다름 없다.
확률 변수의 변환: 변환된 다변량 확률 변수 Y=(Y1,⋯,Yn) 의 조인트 확률밀도함수 g 는 다음과 같다.
g(y1,⋯,yn)=i=1∑kf[w1i(y1,⋯,yn),⋯,wni(y1,⋯,yn)]∣Ji∣
X1,⋯,Xn 이 Y1,⋯,Yn 으로 변환되는 경우의 수는 n! 이고, 어떻게 변하더라도 xi=yj 와 같이 순서만 변할 뿐이기 때문에 자코비안은 ±1 이다. 따라서
g(y1,⋯,yn)==i=1∑n!∣±1∣f(y1)⋯f(yn)n!f(y1)⋯f(yn)
■
[2]
전략: 마찬가지로 n 개의 원소에서 3 종류를 뽑는 조합의 수가 a!b!(n−a−b)!n! 라는 것만 알면 이미 끝난 것이나 다름 없다. 여기서 a=k−1, b=1 이라고 두면 된다.
Yk 하나와 yk 보다 작은 k−1 개의 확률변수가 F(yk) 의 확률로, 큰 n−k 개의 확률변수가 [1−F(yk)] 의 확률로 선택되므로 조합 공식에 따라
g(yk)=(k−1)!1!(n−k)!n![F(yk)]k−1f(yk)[1−F(yk)]n−k
■