logo

통계학에서 랭크의 평균과 분산 📂통계적검정

통계학에서 랭크의 평균과 분산

정리 1

$n$ 개의 연속확률변수 $X_{1} , \cdots , X_{n}$ 이 iid로 주어져 있다고 하자. 각 샘플의 랭크를 $R \left( X_{1} \right) , \cdots , R \left( X_{n} \right)$ 이라고 할 때, 랭크가 따르는 확률분포이산일양분포 $U (1, n)$ 고 $R$ 의 기대값분산은 다음과 같다. $$ \begin{align*} E \left( R \right) =& {\frac{ n + 1 }{ 2 }} \\ \Var \left( R \right) =& {\frac{ n^{2} - 1 }{ 12 }} \end{align*} $$

증명

함수로써의 랭크는 $X_{k}$ 의 인덱스 $k$ 를 순위에 따른 다른 자연수로 매핑하는 순열이라 볼 수 있고, 이는 아무 자연수를 같은 확률로 뽑는 것이나 다름 없다. $R$ 의 확률질량함수는 다음과 같다. $$ p(r) = {\frac{ 1 }{ n }} \qquad , r = 1 , \cdots , n $$

기대값

등차수열의 합 공식: 초항이 $a$ 고 공차가 $d$ 인 등차수열 $a_{n} = a+(n-1)d$ 에 대해 $$ \sum_{k=1}^{n} a_{k}= {{n \left\{ 2a + (n-1)d \right\} } \over {2}} $$

$$ \begin{align*} E \left( R \right) =& \sum_{r=1}^{n} r p(r) \\ =& {\frac{ n (n+1) }{ 2 }} {\frac{ 1 }{ n }} \\ =& {\frac{ n + 1 }{ 2 }} \end{align*} $$

분산

제곱수의 합 공식: $$ \sum_{k=1}^{n} { k^2} = {{n(n+1)(2n+1)} \over {6}} $$

$$ \begin{align*} \Var \left( R \right) =& \sum_{r=1}^{n} \left( r - E \left( R \right) \right)^{2} p(r) \\ =& {\frac{ 1 }{ n }} \sum_{r=1}^{n} \left( r - {\frac{ n + 1 }{ 2 }} \right)^{2} \\ =& {\frac{ 1 }{ n }} \sum_{r=1}^{n} \left( r^{2} - (n+1) r + {\frac{ (n+1)^{2} }{ 4 }} \right) \\ =& {\frac{ 1 }{ n }} \left[ {\frac{ n (n+1) (2n+1) }{ 6 }} - (n+1) {\frac{ n (n+1) }{ 2 }} + n {\frac{ (n+1)^{2} }{ 4 }} \right] \\ =& {\frac{ n+1 }{ 12 }} \left[ 2 (2n + 1) - 6 (n+1) + 3 (n+1) \right] \\ =& {\frac{ n+1 }{ 12 }} \left( n - 1 \right) \end{align*} $$


  1. Kruskal, W. H., & Wallis, W. A. (1952). Use of Ranks in One-Criterion Variance Analysis. Journal of the American Statistical Association, 47(260), 583–621. https://doi.org/10.1080/01621459.1952.10483441 https://medstatistic.ru/articles/Kruskal%20and%20Wallis%201952.pdf 3.1. Two Samples ↩︎