logo

ポイント・バイセリアル相関係数 📂数理統計学

ポイント・バイセリアル相関係数

定義

データ順序対 $\left\{ \left( X , Y \right) \right\}_{k=1}^{n}$ の形を取っているとする。$X$ は連続確率変数で、$Y$ は $y_{0}$ または $y_{1}$ の値を取る離散確率変数とする。次のように定義される統計量点二分相関係数point-biserial correlation coefficientという。 $$ \rho = {\frac{ m_{1} - m_{0} }{ s }} \sqrt{\frac{ n_{0} n_{1} }{ n^{2} }} $$ ここで $n_{0}, n_{1}$ はそれぞれ $Y = y_{0}$ の場合と $Y = y_{1}$ の場合のサンプル数で、$m_{0}, m_{1}$ はそれぞれ $Y = y_{0}$ の場合と $Y = y_{1}$ の場合の $X$ の平均である。$n$ は全サンプル数、$\sigma$ は全体 $X$ の標準偏差である。

説明 1

点二分相関係数は、2つの変数のうち一方が連続型で他方が離散型、特に $y_{0}$ または $y_{1}$ のように二値に分けられる場合に用いられる相関係数である。

$p_{0}$ と $p_{1}$ をそれぞれ次のように、$Y$ が2つのうちどちらかの値を取る確率として表すとする。 $$ \begin{align*} p_{0} =& P \left( Y = y_{0} \right) \\ p_{1} =& P \left( Y = y_{1} \right) \\ 1 =& p_{0} + p_{1} \end{align*} $$ このとき、$X$ の確率密度関数 $f$ を、$Y = y_{0}$ に属する $X$ の確率密度関数を $f_{0}$、$Y = y_{1}$ に属する $X$ の確率密度関数を $f_{1}$ とすると、$X$ の確率密度関数 $f$ は次のようになる。 $$ f (x) = p_{0} f_{0}(x) + p_{1} f_{1}(x) $$ 積分の線形性により $X$ の期待値は次のようになる。 $$ E \left( X \right) = p_{0} m_{0} + p_{1} m_{1} $$

ここで二変量変数 $\left( X, Y \right)$ について次のように $\sigma_{ij}$ を定義する。 $$ \sigma_{ij} = E \left[ \left( X - E \left( X \right) \right)^{i} \left( Y - E(Y) \right)^{j} \right] $$

ピアソン相関係数: $$ \rho = { {\operatorname{Cov} (X,Y)} \over {\sigma_X \sigma_Y} } $$

ここで $\sigma_{00}, \sigma_{01}, \sigma_{10}$ はあまり意味がなく、ピアソン相関係数で言えば $\sigma_{11} = \Cov \left( X, Y \right)$ および $\sigma_{X} = \sqrt{\sigma_{20}}$、$\sigma_{Y} = \sqrt{\sigma_{02}}$ に対応し、次のように表せる。 $$ \rho = { \sigma_{11} \over \sqrt{\sigma_{20}} \sqrt{\sigma_{02}} } $$

一般性を失わずに、$y_{0} < y_{1}$ と仮定すると、これらはそれぞれ $0$ と $1$ に変換でき、さらに $\sigma_{ij}$ を積分形式に展開すると次のようになる。 $$ \begin{align*} \sigma_{ij} =& \sum_{y=0,1} \left( y - p_{1} \right)^{j} E \left[ \left( X - m \right)^{i} \mid Y = y \right] P \left( Y = y \right) \\ =& p_{1} \left( 1 - p_{1} \right)^{j} E \left[ \left( X - m \right)^{i} \mid Y = 1 \right] \\ & + p_{0} \left( 0 - p_{1} \right)^{j} E \left[ \left( X - m \right)^{i} \mid Y = 0 \right] \\ =& p_{1} p_{0}^{j} \int_{\mathbb{R}} \left( x - m \right)^{i} f_{1} (x) dx \\ & + p_{0} \left( - p_{1} \right)^{j} \int_{\mathbb{R}} \left( x - m \right)^{i} f_{0} (x) dx \end{align*} $$

ここで $m = E(X) = p_{1} m_{1} + p_{0} m_{0}$ および $\Delta = m_{1} - m_{0}$ であり、$(x - m)$ の各種の表現は次のように得られる。

  • $Y = 1$ のとき $$ \begin{align*} & x - m \\ =& x - m_{1} + m_{1} - m \\ =& x - m_{1} + m_{1} - p_{1} m_{1} - p_{0} m_{0} \\ =& x - m_{1} + \left( 1 - p_{1} \right) m_{1} - p_{0} m_{0} \\ =& x - m_{1} + p_{0} m_{1} - p_{0} m_{0} \\ =& x - m_{1} + p_{0} \Delta \end{align*} $$

  • $Y = 0$ のとき $$ \begin{align*} & x - m \\ =& x - m_{0} + m_{0} - m \\ =& x - m_{0} + m_{0} - p_{1} m_{1} - p_{0} m_{0} \\ =& x - m_{0} + \left( 1 - p_{0} \right) m_{0} - p_{1} m_{1} \\ =& x - m_{0} + p_{1} m_{0} - p_{1} m_{1} \\ =& x - m_{0} - p_{1} \Delta \end{align*} $$

要約すると次を得る。 $$ \begin{align*} \sigma_{ij} =& p_{1} p_{0}^{j} \int_{\mathbb{R}} \left( x - m_{1} + p_{0} \Delta \right)^{i} f_{1} (x) dx \\ & + p_{0} \left( - p_{1} \right)^{j} \int_{\mathbb{R}} \left( x - m_{0} - p_{1} \Delta \right)^{i} f_{0} (x) dx \end{align*} $$

ここで $\rho$ を完成するために $\sigma_{20}$、$\sigma_{02}$、$\sigma_{11}$ を求める。 $$ \sigma_{20} = E \left[ \left( X - E \left( X \right) \right)^{2} \right] = s^{2} $$ $\sigma_{20}$ は全体 $X$ の分散である。 $$ \begin{align*} \sigma_{02} =& p_{1} p_{0}^{2} + p_{0} p_{1}^{2} \\ =& p_{1} p_{0} \left( p_{0} + p_{1} \right) \\ =& p_{1} p_{0} \end{align*} $$ $\sigma_{02}$、同様の方法で $\sigma_{11}$ も求められる。 $$ \begin{align*} \sigma_{11} =& p_{1} p_{0}^{1} \int_{\mathbb{R}} p_{0} \Delta f_{1} (x) dx + p_{0} \left( - p_{1} \right)^{1} \int_{\mathbb{R}} \left( - p_{1} \Delta \right)^{1} f_{0} (x) dx \\ =& p_{1} p_{0} p_{0} \Delta + p_{0} \left( - p_{1} \right) \left( - p_{1} \Delta \right) \\ =& p_{1} p_{0} \end{align*} $$

最後に $\rho$ に代入すると次を得る。 $$ \begin{align*} \rho =& { \sigma_{11} \over \sqrt{\sigma_{20}} \sqrt{\sigma_{02}} } \\ =& {\frac{ p_{1} p_{0} \Delta }{ \sqrt{s^{2}} \sqrt{p_{1} p_{0}} }} \\ =& {\frac{ m_{1} - m_{0} }{ s }} \sqrt{p_{0} p_{1}} \\ =& {\frac{ m_{1} - m_{0} }{ s }} \sqrt{\frac{ n_{0} n_{1} }{ n^{2} }} \end{align*} $$

このような導出過程において、点二分相関係数が実際に相関係数と同様の機能を持つため、相関係数であることが確認できる。符号が負か正かはそれほど重要ではないが、その値が $0$ に近いということは、そもそも $f_{0} \approx f_{1}$ である、つまり二つの分布が大きく異ならないと解釈できる。


  1. Gupta, S.D. Point biserial correlation coefficient and its generalization. Psychometrika 25, 393–408 (1960). https://doi.org/10.1007/BF02289756 ↩︎