포인트-양분 상관계수
정의
데이터가 순서쌍 $\left\{ \left( X , Y \right) \right\}_{k=1}^{n}$ 의 형태를 취하고 있다고 하자. $X$ 는 연속확률변수고, $Y$ 는 $y_{0}$ 혹은 $y_{1}$의 값을 가지는 이산확률변수라고 하자. 다음과 같이 정의되는 통계량을 포인트-양분 상관계수point-biserial correlation coefficient라 한다. $$ \rho = {\frac{ m_{1} - m_{0} }{ s }} \sqrt{\frac{ n_{0} n_{1} }{ n^{2} }} $$ 여기서 $n_{0}, n_{1}$ 은 각각 $Y = y_{0}$ 인 경우와 $Y = y_{1}$ 인 경우의 샘플 수고 $m_{0}, m_{1}$ 은 각각 $Y = y_{0}$ 인 경우와 $Y = y_{1}$ 인 경우의 $X$ 의 평균이다. $n$ 은 전체 샘플 수, $\sigma$ 는 전체 $X$ 의 표준편차다.
설명 1
포인트-양분 상관계수는 두 가지의 변수 중 하나가 연속형이고 하나가 이산형, 특히 $y_{0}$ 혹은 $y_{1}$ 과 같이 이진형으로 양분할 수 있을 때 사용할 수 있는 상관계수다.
$p_{0}$ 과 $p_{1}$ 을 각각 다음과 같이 $Y$ 가 둘 중 하나의 값을 가지는 확률로써 나타내도록 하자. $$ \begin{align*} p_{0} =& P \left( Y = y_{0} \right) \\ p_{1} =& P \left( Y = y_{1} \right) \\ 1 =& p_{0} + p_{1} \end{align*} $$ 이 때, $X$ 의 확률밀도함수 $f$ 는 $Y = y_{0}$ 인 $X$ 들의 확률밀도함수 $f_{0}$ 와 $Y = y_{1}$ 인 $X$ 들의 확률밀도함수 $f_{1}$ 에 대해 다음과 같이 둔다. $$ f (x) = p_{0} f_{0}(x) + p_{1} f_{1}(x) $$ 적분의 선형성에 따라 $X$ 의 기대값은 다음과 같다. $$ E \left( X \right) = p_{0} m_{0} + p_{1} m_{1} $$
이제 이변량 변수 $\left( X, Y \right)$ 에 대해 다음과 같이 $\sigma_{ij}$ 를 정의하자. $$ \sigma_{ij} = E \left[ \left( X - E \left( X \right) \right)^{i} \left( Y - E(Y) \right)^{j} \right] $$
피어슨 상관계수: $$ \rho = { {\operatorname{Cov} (X,Y)} \over {\sigma_X \sigma_Y} } $$
여기서 $\sigma_{00}, \sigma_{01}, \sigma_{10}$ 은 큰 의미가 없으며, 피어슨 상관계수로 치면 $\sigma_{11} = \Cov \left( X, Y \right)$ 그리고 $\sigma_{X} = \sqrt{\sigma_{20}}$, $\sigma_{Y} = \sqrt{\sigma_{02}}$ 에 해당해서 다음과 같이 나타낼 수 있을 것이다. $$ \rho = { \sigma_{11} \over \sqrt{\sigma_{20}} \sqrt{\sigma_{02}} } $$
일반성을 잃지 않고, $y_{0} < y_{1}$ 이라고 가정하면 이들은 각각 $0$ 과 $1$ 로 변환할 수 있고 다시 $\sigma_{ij}$ 를 적분폼으로 풀어적어보면 다음과 같다. $$ \begin{align*} \sigma_{ij} =& \sum_{y=0,1} \left( y - p_{1} \right)^{j} E \left[ \left( X - m \right)^{i} \mid Y = y \right] P \left( Y = y \right) \\ =& p_{1} \left( 1 - p_{1} \right)^{j} E \left[ \left( X - m \right)^{i} \mid Y = 1 \right] \\ & + p_{0} \left( 0 - p_{1} \right)^{j} E \left[ \left( X - m \right)^{i} \mid Y = 0 \right] \\ =& p_{1} p_{0}^{j} \int_{\mathbb{R}} \left( x - m \right)^{i} f_{1} (x) dx \\ & + p_{0} \left( - p_{1} \right)^{j} \int_{\mathbb{R}} \left( x - m \right)^{i} f_{0} (x) dx \end{align*} $$
여기서 $m = E(X) = p_{1} m_{1} + p_{0} m_{0}$ 그리고 $\Delta = m_{1} - m_{0}$ 이고, $(x - m)$ 의 제각각 다른 표현들은 다음과 같이 얻어진다.
$Y = 1$ 일 때 $$ \begin{align*} & x - m \\ =& x - m_{1} + m_{1} - m \\ =& x - m_{1} + m_{1} - p_{1} m_{1} - p_{0} m_{0} \\ =& x - m_{1} + \left( 1 - p_{1} \right) m_{1} - p_{0} m_{0} \\ =& x - m_{1} + p_{0} m_{1} - p_{0} m_{0} \\ =& x - m_{1} + p_{0} \Delta \end{align*} $$
$Y = 0$ 일 때 $$ \begin{align*} & x - m \\ =& x - m_{0} + m_{0} - m \\ =& x - m_{0} + m_{0} - p_{1} m_{1} - p_{0} m_{0} \\ =& x - m_{0} + \left( 1 - p_{0} \right) m_{0} - p_{1} m_{1} \\ =& x - m_{0} + p_{1} m_{0} - p_{1} m_{1} \\ =& x - m_{0} - p_{1} \Delta \end{align*} $$
요약하면 다음을 얻는다. $$ \begin{align*} \sigma_{ij} =& p_{1} p_{0}^{j} \int_{\mathbb{R}} \left( x - m_{1} + p_{0} \Delta \right)^{i} f_{1} (x) dx \\ & + p_{0} \left( - p_{1} \right)^{j} \int_{\mathbb{R}} \left( x - m_{0} - p_{1} \Delta \right)^{i} f_{0} (x) dx \end{align*} $$
이제 $\rho$ 를 완성하기 위해 $\sigma_{20}$, $\sigma_{02}$, $\sigma_{11}$ 을 구해보자. $$ \sigma_{20} = E \left[ \left( X - E \left( X \right) \right)^{2} \right] = s^{2} $$ $\sigma_{20}$ 는 전체 $X$ 의 분산이다. $$ \begin{align*} \sigma_{02} =& p_{1} p_{0}^{2} + p_{0} p_{1}^{2} \\ =& p_{1} p_{0} \left( p_{0} + p_{1} \right) \\ =& p_{1} p_{0} \end{align*} $$ $\sigma_{02}$ 비슷한 방식으로 $\sigma_{11}$ 도 구할 수 있다. $$ \begin{align*} \sigma_{11} =& p_{1} p_{0}^{1} \int_{\mathbb{R}} p_{0} \Delta f_{1} (x) dx + p_{0} \left( - p_{1} \right)^{1} \int_{\mathbb{R}} \left( - p_{1} \Delta \right)^{1} f_{0} (x) dx \\ =& p_{1} p_{0} p_{0} \Delta + p_{0} \left( - p_{1} \right) \left( - p_{1} \Delta \right) \\ =& p_{1} p_{0} \end{align*} $$
마지막으로, $\rho$ 에 대입하면 다음을 얻는다. $$ \begin{align*} \rho =& { \sigma_{11} \over \sqrt{\sigma_{20}} \sqrt{\sigma_{02}} } \\ =& {\frac{ p_{1} p_{0} \Delta }{ \sqrt{s^{2}} \sqrt{p_{1} p_{0}} }} \\ =& {\frac{ m_{1} - m_{0} }{ s }} \sqrt{p_{0} p_{1}} \\ =& {\frac{ m_{1} - m_{0} }{ s }} \sqrt{\frac{ n_{0} n_{1} }{ n^{2} }} \end{align*} $$
이러한 유도과정에서 우리는 포인트-양분 상관계수가 실제로 상관계수와 같은 기능을 하기 때문에 상관계수임을 확인할 수 있다. 부호가 음인지 양인지는 그다지 중요하지 않지만, 그 값이 $0$ 에 가깝다는 것은 애초에 $f_{0} \approx f_{1}$ 라는 것―다시 말해 두 분포가 크게 다르지 않다고 해석할 수 있다.
Gupta, S.D. Point biserial correlation coefficient and its generalization. Psychometrika 25, 393–408 (1960). https://doi.org/10.1007/BF02289756 ↩︎