スピアマンの順位相関係数r
定義 1
$n$ 個の ランダムサンプル が $(X, Y)$ のような 順序対 として与えられているとし、$k$ 番目のサンプルで $X$ の順位を $X_{k}$、$Y$ の順位を $Y_{k}$ とすると,各々の 順位 で作られた順序対は $\left\{ \left( X_{k} , Y_{k} \right) \right\}_{k=1}^{n}$ のように表せる。次のように定義された $r$ を スピアマン順位相関係数Spearman rank correlation coefficient と呼ぶ。 $$ r = 1 - \frac{ 6 \sum_{k=1}^{n} \left( X_{k} - Y_{k} \right)^{2} }{ n (n^{2} - 1) } $$
説明
統計学 全般で最も広く用いられる相関係数は ピアソン相関係数 であり、ノンパラメトリック統計学 の領域では スピアマン順位相関係数 が最も有名である。
順位の平均と分散: $$ \begin{align*} E \left( R \right) =& {\frac{ n + 1 }{ 2 }} \\ \Var \left( R \right) =& {\frac{ n^{2} - 1 }{ 12 }} \end{align*} $$
$r$ を式的に扱うとその定義は非常に奇妙に見えるが、実際には次のようにピアソン相関係数と同様の常識的な形から出発する。ただし順位の和が $n(n+1)/2$ のような定数に定められているため、結果として簡略化された形が唐突に見えるにすぎない。
$$ \begin{align*} r =& {\frac{ S_{XY} }{ \sqrt{S_{XX} S_{YY}} }} \\ S_{XY} =& \sum_{k=1}^{n} \left( X_{k} - E \left( R_{X} \right) \right) \left( Y_{k} - E \left( R_{Y} \right) \right) \\ S_{XX} =& \sum_{k=1}^{n} \left( X_{k} - E \left( R_{X} \right) \right)^{2} \\ S_{YY} =& \sum_{k=1}^{n} \left( Y_{k} - E \left( R_{Y} \right) \right)^{2} \end{align*} $$
仮説検定
スピアマン相関係数は $[-1, 1]$ に有界されており、$r$ 自体を用いる仮説検定 が存在する。
- $H_{0}$: 2つの順位順序対は関連がない。
- $H_{1}$: 2つの順位順序対は関連がある。
棄却域は マン・ホイットニー検定 と類似して別途計算された表を用いて求める。特に両側検定では $-1$ や $1$ に近いほど関連があり、$0$ に近いほど関連がないと見なす。これはパラメトリック手法のうち $t$ 検定 に対応するノンパラメトリック検定であると言える。
ケンドール順位相関係数
スピアマン順位相関係数に次いで有名な相関係数として,次のような ケンドール順位相関係数Kendall rank correlation coefficient $\tau$ が知られている。 $$ \tau = \frac{ 2 }{ n (n-1) } \sum_{i<j} \sgn \left( X_{i} - X_{j} \right) \sgn \left( Y_{i} - Y_{j} \right) $$ ここで $\sgn$ は 符号関数 である。
関連項目
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p661. ↩︎
