logo

스피어만 랭크 상관계수 r 📂통계적검정

스피어만 랭크 상관계수 r

정의 1

$n$ 개의 랜덤샘플이 $(X, Y)$ 와 같은 순서쌍으로 주어져 있다고 하고, $k$ 번째 샘플에서 $X$ 의 순위를 $X_{k}$, $Y$ 의 순위를 $Y_{k}$ 라고 하면 각자의 순위로 만들어진 순서쌍은 $\left\{ \left( X_{k} , Y_{k} \right) \right\}_{k=1}^{n}$ 과 같이 나타낼 수 있다. 다음과 같이 정의된 $r$ 을 스피어만 랭크 상관계수Spearman rank correlation coefficient라 한다. $$ r = 1 - \frac{ 6 \sum_{k=1}^{n} \left( X_{k} - Y_{k} \right)^{2} }{ n (n^{2} - 1) } $$

설명

통계학 전반에서 가장 널리 쓰이는 상관계수는 피어슨 상관계수고, 비모수 통계학의 영역에서는 스피어만 랭크 상관계수이 가장 유명하다.

랭크의 평균과 분산: $$ \begin{align*} E \left( R \right) =& {\frac{ n + 1 }{ 2 }} \\ \Var \left( R \right) =& {\frac{ n^{2} - 1 }{ 12 }} \end{align*} $$

$r$ 을 수식적으로 접근하자면 그 정의가 굉장히 기괴해 보이는데, 실제로는 다음과 같이 피어슨 상관계수와 마찬가지로 상식적인 폼에서 출발하지만 랭크의 합이 $n(n+1)/2$ 과 같은 상수로 정해져 있다보니 결과적으로는 축약된 형태가 뜬금없어 보이는 것 뿐이다.

$$ \begin{align*} r =& {\frac{ S_{XY} }{ \sqrt{S_{XX} S_{YY}} }} \\ S_{XY} =& \sum_{k=1}^{n} \left( X_{k} - E \left( R_{X} \right) \right) \left( Y_{k} - E \left( R_{Y} \right) \right) \\ S_{XX} =& \sum_{k=1}^{n} \left( X_{k} - E \left( R_{X} \right) \right)^{2} \\ S_{YY} =& \sum_{k=1}^{n} \left( Y_{k} - E \left( R_{Y} \right) \right)^{2} \end{align*} $$

가설검정

스피어만 상관계수는 $[-1, 1]$ 에 바운디드 되어있고, $r$ 그 자체를 사용하는 가설검정이 있다.

  • $H_{0}$: 두 순위 순서쌍은 관련이 없다.
  • $H_{1}$: 두 순위 순서쌍은 관련이 있다.

기각역은 만-휘트니 검정과 유사하게 별도로 계산된 테이블을 이용해서 구하며, 특히 양쪽꼬리검정에서는 $-1$ 이나 $1$ 에 가까울수록 관련이 있고 $0$ 에 가까울수록 관련이 없는 것으로 본다. 이는 모수적 기법 중에서 $t$-검정에 대응되는 비모수적 검정이라 할 수 있다.

켄달 랭크 상관계수

스피어만 랭크 상관계수 다음으로 유명한 상관계수로써 다음과 같은 켄달 랭크 상관계수Kendall rank correlation coefficient $\tau$ 가 알려져 있다. $$ \tau = \frac{ 2 }{ n (n-1) } \sum_{i<j} \sgn \left( X_{i} - X_{j} \right) \sgn \left( Y_{i} - Y_{j} \right) $$ 여기서 $\sgn$ 은 부호 함수다.

같이보기


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p661. ↩︎