피어슨 상관계수

정의 ¹

두 확률변수 $X, Y$ 에 대해 다음과 같이 정의된 $\rho = \rho (X,Y)$ 를 피어슨 상관계수^{Pearson Correlation}라고 한다. $$ \rho = { {\operatorname{Cov} (X,Y)} \over {\sigma_X \sigma_Y} } $$

$\sigma_{X}$, $\sigma_{Y}$ 는 각각 $X$, $Y$ 의 표준편차다.

설명

(피어슨) 상관 계수^{(Pearson) Correlation coefficient}는 두 변수가 서로 (선형) 상관 관계 를 가지고 있는지를 확인하는 척도가 된다. $1$ 이나 $–1$ 에 가까우면 상관관계가 있다고 보고 $0$ 이면 없다고 본다.

주의할 것은 상관관계와 독립이 같은 개념이 아니라는 것이다. 상관관계는 오직 두 변수가 직선형의 그래프를 그리는지만 확인한다. 상관관계가 없다고 해서 반드시 독립인 것은 아니다. 하지만 독립이면 상관관계가 없다고 할 수 있다. 이 역이 성립하는 것은 두 변수가 정규분포를 따를 때 뿐이다.

성질

피어슨 상관계수는 $[-1,1]$ 을 벗어나지 않는다. 즉, $$ – 1 \le \rho \le 1 $$

증명

증명은 두 가지 방법을 소개하고자 한다.

코시-슈바르츠 부등식을 사용한 증명

$$ \rho = { {\operatorname{Cov} (X,Y)} \over {\sigma_X \sigma_Y} } = {1 \over n} \sum_{k=1}^{n} { \left( { { x_k - \mu_{X} } \over {\sigma_X} } \right) \left( { { y_k - \mu_{Y} } \over {\sigma_Y} } \right) } $$ 양변을 제곱하면 $$ \rho ^2 = {1 \over {n^2} } \left\{ \sum_{k=1}^{n} { \left( { { x_k - \mu_{X} } \over {\sigma_X} } \right) \left( { { y_k - \mu_{Y} } \over {\sigma_Y} } \right) } \right\} ^ 2 $$

코시-슈바르츠 부등식: $$ ({a}^{2}+{b}^{2})({x}^{2}+{y}^{2})\ge { (ax+by) }^{ 2 } $$

코시-슈바르츠 부등식에 의해 $$ {1 \over {n^2} } \left\{ \sum_{k=1}^{n} { \left( { { x_k - \mu_{X} } \over {\sigma_X} } \right) \left( { { y_k - \mu_{Y} } \over {\sigma_Y} } \right) } \right\} ^ 2 \le {1 \over {n^2} } \sum_{k=1}^{n} { \left( { { x_k - \mu_{X} } \over {\sigma_X} } \right) ^ 2 } \sum_{k=1}^{n} { \left( { { y_k - \mu_{Y} } \over {\sigma_Y} } \right) ^ 2 } $$ 우변을 정리하면 $$ \begin{align*} & {1 \over {n^2} } \sum_{k=1}^{n} { \left( { { x_k - \mu_{X} } \over {\sigma_X} } \right) ^ 2 } \sum_{k=1}^{n} { \left( { { y_k - \mu_{Y} } \over {\sigma_Y} } \right) ^ 2 } \\ =& {1 \over { {\sigma_X}^2 {\sigma_Y}^2 } } \sum_{k=1}^{n} { \left( { { x_k - \mu_{X} } \over { \sqrt{n} } } \right) ^ 2 \sum_{k=1}^{n} \left( { { y_k - \mu_{Y} } \over {\sqrt{n}} } \right) ^ 2 } \\ =& {1 \over { {\sigma_X}^2 {\sigma_Y}^2 } } {\sigma_X}^2 {\sigma_Y}^2 \\ =& 1 \end{align*} $$ $\rho ^2 \le 1$ 이므로 $$ -1 \le \rho \le 1 $$

■

공분산의 정의를 이용한 증명

$\Var(Y)={ \sigma _ Y }^2, \Var(X)={ \sigma _ X }^2$, $\displaystyle Z= \frac { Y }{ \sigma _Y } - \rho \frac { X }{ \sigma _X }$ 이라고 두면 공분산의 정의에 따라 $$ \begin{align*} \Var(Z)&=\frac { 1 }{ { \sigma _ Y }^2 }\Var(Y)+\frac { { \rho ^ 2 } }{ { \sigma _ X }^2 }\Var(X)-2\frac { \rho }{ { \sigma _X } { \sigma _Y } }\operatorname{Cov}(X,Y) \\ =& \frac { 1 }{ { \sigma _ Y }^2 }{ \sigma _ Y }^2+\frac { { \rho ^ 2 } }{ { \sigma _ X }^2 }{ \sigma _ X }^2-2\rho \cdot \rho \\ &=1+{ \rho ^ 2 }-2{ \rho ^ 2 } \\ &=1-{ \rho ^ 2 } \end{align*} $$ $\Var(Z)\ge 0$이므로 $$ \begin{align*} 1-{ \rho ^ 2 }\ge 0 \implies& { \rho ^ 2 }-1\le 0 \\ \implies& (\rho +1)(\rho –1)\le 0 \\ \implies& -1\le \rho \le 1 \end{align*} $$

■

같이보기

스피어만 상관계수

Hogg et al. (2013). Introduction to Mathematical Statistcs(7th Edition): p104. ↩︎