피어슨 정리 증명
정리
$$ \sum_{i=1}^{k} N_{i} = n \qquad \& \qquad \sum_{i=1}^{k} p_{i} = 1 $$ 을 만족시키는 $\mathbf{p} = \left( p_{1} , \cdots , p_{k} \right) \in [0,1]^{k}$ 와 샘플사이즈 $n \in \mathbb{N}$ 과 $k \in \mathbb{N}$ 개의 범주에 대해 랜덤벡터 $\left( N_{1} , \cdots , N_{k} \right)$ 가 다항분포 $M_{k} \left( n ; \mathbf{p} \right)$ 를 따른자고 하자. 그러면 $n \to \infty$ 일 때 다음의 통계량 $S$ 는 카이제곱분포 $\chi^{2} \left( k - 1 \right)$ 로 분포수렴한다. $$ S := \sum_{j=1}^{k} {{ \left( N_{j} - n p_{j} \right)^{2} } \over { n p_{j} }} \overset{D}{\to} \chi^{2} \left( k-1 \right) $$
- $[0,1]^{k} = [0,1] \times \cdots \times [0,1]$ 은 $k$-셀이다.
- $\overset{D}{\to}$ 는 분포수렴을 의미한다.
- $\chi^{2} \left( r \right)$ 은 자유도 $r$ 인 카이제곱분포를 의미한다.
설명
사실 피어슨 정리라는 표현이 자주 쓰이는 것은 아니다. 솔직히 한 번 밖에 못 봤는데1, 보통은 다음의 통계량 $$ \mathcal{X}^{2} := \sum_{j=1}^{k} {{ \left( O_{j} - E_{j} \right)^{2} } \over { E_{j} }} $$ 를 피어슨 카이제곱 통계량pearson Chi-squared statistic이라 부르고 이것이 카이제곱분포로 분포수렴한다는 식의 스테이트먼트로만 쓰이기 때문이다. 정확히 정리라는 인식을 가지고 공부하기보단 냅다 실용적인 가설검정 이야기로 넘어가기 때문에 엄밀한 수리적 증명을 경시해서 그렇듯 하다.
증명 2
$\mathbf{p}$ 의 모든 성분이 $p_{j} > 0$ 이고 $$ S := \sum_{j=1}^{k} {{ \left( X_{j} - n p_{j} \right)^{2} } \over { n p_{j} }} $$ 라고 하자. 제약조건 $\sum_{j=1}^{k} \left( N_{j} - n p_{j} \right) = 0$ 에 따라 마지막 $k$번째 항을 빼내면 $$ \begin{align*} S =& \sum_{j=1}^{k} {{ \left( X_{j} - n p_{j} \right)^{2} } \over { n p_{j} }} \\ =& \sum_{j=1}^{k-1} {{ \left( X_{j} - n p_{j} \right)^{2} } \over { n p_{j} }} + {{ \left( X_{k} - n p_{k} \right)^{2} } \over { n p_{k} }} \\ =& \sum_{j=1}^{k-1} {{ \left( X_{j} - n p_{j} \right)^{2} } \over { n p_{j} }} + {{ \left( \sum_{j=1}^{k-1} \left( X_{j} - n p_{j} \right) \right)^{2} } \over { n p_{k} }} \end{align*} $$ 를 얻는다. 이렇듯 제약조건이 있으면 사실 $N_{k}$ 는 필요가 없고, $k$번째 성분이 잘려나간 $\widetilde{N} := \left( N_{1} , \cdots , N_{k-1} \right)$ 와 $\widetilde{\mathbf{p}} := \left( p_{1} , \cdots , p_{k-1} \right)$ 에 대해 $\widetilde{N}$ 의 공분산행렬 $\widetilde{\Sigma}$ 를 생각해보려 한다.
다항분포의 공분산행렬: 랜덤벡터 $\mathbf{X} := \left( X_{1} , \cdots , X_{k} \right)$ 가 다항분포 $M_{k} \left( n, \mathbf{p} \right)$ 면 공분산행렬은 다음과 같다. $$ \operatorname{Cov} \left( \mathbf{X} \right) = n \begin{bmatrix} p_{1} \left( 1 - p_{1} \right) & - p_{1} p_{2} & \cdots & - p_{1} p_{k} \\ - p_{2} p_{1} & p_{2} \left( 1 - p_{2} \right) & \cdots & - p_{2} p_{2} \\ \vdots & \vdots & \ddots & \vdots \\ - p_{k} p_{1} & - p_{k} p_{2} & \cdots & p_{k} \left( 1 - p_{k} \right) \end{bmatrix} $$
$k$번째 성분이 있든 없든 $\operatorname{Cov} \left( N_{i} , N_{j} \right)$ 가 달라질 이유는 없으므로 항등행렬 $I_{k-1}$ 에 대해 다음을 얻는다. $$ \begin{align*} & {{ 1 } \over { n }} \widetilde{\Sigma} \\ =& {{ 1 } \over { n }} \operatorname{Cov} \left( \widetilde{N} \right) \\ =& \begin{bmatrix} p_{1} \left( 1 - p_{1} \right) & - p_{1} p_{2} & \cdots & - p_{1} p_{k-1} \\ - p_{2} p_{1} & p_{2} \left( 1 - p_{2} \right) & \cdots & - p_{2} p_{2} \\ \vdots & \vdots & \ddots & \vdots \\ - p_{k-1} p_{1} & - p_{k-1} p_{2} & \cdots & p_{k-1} \left( 1 - p_{k-1} \right) \end{bmatrix} \\ =& \begin{bmatrix} p_{1} & 0 & \cdots & 0 \\ 0 & p_{2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & p_{k-1} \end{bmatrix} - \begin{bmatrix} - p_{1}^{2} & - p_{1} p_{2} & \cdots & - p_{1} p_{k-1} \\ - p_{2} p_{1} & - p_{2}^{2} & \cdots & - p_{2} p_{2} \\ \vdots & \vdots & \ddots & \vdots \\ - p_{k-1} p_{1} & - p_{k-1} p_{2} & \cdots & - p_{k-1}^{2} \end{bmatrix} \\ =& \begin{bmatrix} p_{1} & 0 & \cdots & 0 \\ 0 & p_{2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & p_{k-1} \end{bmatrix} - \begin{bmatrix} p_{1} \\ p_{2} \\ \vdots \\ p_{k-1} \end{bmatrix} \begin{bmatrix} p_{1} & p_{2} & \cdots & p_{k-1} \end{bmatrix} \\ =& \begin{bmatrix} p_{1} & 0 & \cdots & 0 \\ 0 & p_{2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & p_{k-1} \end{bmatrix} - \widetilde{\mathbf{p}} \widetilde{\mathbf{p}}^{T} \\ =& I_{k-1} \widetilde{\mathbf{p}} - \widetilde{\mathbf{p}} \widetilde{\mathbf{p}}^{T} \end{align*} $$ 여기서 $\widetilde{\mathbf{p}}^{T}$ 는 $\widetilde{\mathbf{p}}$ 의 전치행렬을 의미한다. 이제 $\widetilde{P} := I_{k-1} \widetilde{\mathbf{p}}$ 라 두자.
셔먼-모리슨 공식: $\left( A + \mathbf{u} \mathbf{v}^{T} \right)^{-1}$ 이 존재할 때, 그 구체적인 공식은 다음과 같다. $$ \left( A + \mathbf{u} \mathbf{v}^{T} \right)^{-1} = A^{-1} - {{ A^{-1} \mathbf{u} \mathbf{v}^{T} A^{-1} } \over { 1 + \mathbf{v}^{T} A^{-1} \mathbf{u} }} $$
${{ 1 } \over { n }} \widetilde{\Sigma}$ 의 역행렬을 계산해보면 대각행렬 $$ \widetilde{P} = I_{k-1} \widetilde{\mathbf{p}} = \text{diag} \left( p_{1} , \cdots , p_{k-1} \right) $$ 의 역행렬이 대각성분을 역수로 취한 대각행렬 $\widetilde{P}^{-1} = \text{diag} \left( p_{1}^{-1} , \cdots , p_{k-1}^{-1} \right)$ 이므로 셔먼-모리슨 공식에 따라 $$ \begin{align*} & \left( {{ 1 } \over { n }} \widetilde{\Sigma} \right)^{-1} \\ =& \left( \widetilde{P} + \left( - \widetilde{\mathbf{p}} \widetilde{\mathbf{p}}^{T} \right) \right)^{-1} \\ =& \widetilde{P}^{-1} + {{ \widetilde{P}^{-1} \widetilde{\mathbf{p}} \widetilde{\mathbf{p}}^{T} \widetilde{P}^{-1} } \over { 1 - \widetilde{\mathbf{p}}^{T} \widetilde{P}^{-1} \widetilde{\mathbf{p}} }} \\ =& \widetilde{P}^{-1} + {{ I_{k-1} I_{k-1} } \over { 1 - I_{k-1} \widetilde{\mathbf{p}} }} \\ =& \widetilde{P}^{-1} + {{ I_{k-1} I_{k-1} } \over { 1 - I_{k-1} \widetilde{\mathbf{p}} }} \\ =& \widetilde{P}^{-1} + {{ 1 } \over { 1 - p_{1} - \cdots - p_{k-1} }} I_{k-1} \\ =& \widetilde{P}^{-1} + {{ 1 } \over { p_{k} }} I_{k-1} \\ =& \begin{bmatrix} {{ 1 } \over { p_{1} }} + {{ 1 } \over { p_{k} }} & 0 & 0 & \cdots & 0 \\ 0 & {{ 1 } \over { p_{2} }} + {{ 1 } \over { p_{k} }} & 0 & \cdots & 0 \\ 0 & 0 & {{ 1 } \over { p_{3} }} + {{ 1 } \over { p_{k} }} & \cdots & 0 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & 0 & \cdots & {{ 1 } \over { p_{k-1} }} + {{ 1 } \over { p_{k} }} \end{bmatrix} \end{align*} $$ 이다. 다시 $S$ 로 돌아가서 행렬 꼴로 나타내보면 $$ \begin{align*} S =& \sum_{j=1}^{k-1} {{ \left( X_{j} - n p_{j} \right)^{2} } \over { n p_{j} }} + {{ \left( \sum_{j=1}^{k-1} \left( X_{j} - n p_{j} \right) \right)^{2} } \over { n p_{k} }} \\ =& {{ 1 } \over { n }} \left[ \sum_{j=1}^{k-1} \left( X_{j} - n p_{j} \right) {{ 1 } \over { p_{j} }} \left( X_{j} - n p_{j} \right) + \sum_{j=1}^{k-1} \left( X_{j} - n p_{j} \right) {{ 1 } \over { p_{k} }} \sum_{j=1}^{k-1} \left( X_{j} - n p_{j} \right) \right] \\ =& {{ 1 } \over { n }} \left( \widetilde{N} - n \widetilde{\mathbf{p}} \right)^{T} \left( {{ 1 } \over { n }} \widetilde{\Sigma} \right)^{-1} \left( \widetilde{N} - n \widetilde{\mathbf{p}} \right) \\ =& \left( \widetilde{N} - n \widetilde{\mathbf{p}} \right)^{T} \left( \widetilde{\Sigma}^{-1} \right) \left( \widetilde{N} - n \widetilde{\mathbf{p}} \right) \end{align*} $$
드 무아브르-라플라스 정리: $X_i \sim B(1,p)$ 이고 $Y_n = X_1 + X_2 + \cdots + X_n$ 이라고 하면 $Y_n \sim B(n,p)$ 이고 $$ { { Y_n - np } \over {\sqrt{ np(1-p) } } }\overset{D}{\to} N(0,1) $$
우리는 이미 $\widetilde{\Sigma}$ 가 $\widetilde{N}$ 의 공분산행렬임을 알고 있으므로 $$ \left( \widetilde{N} - n \widetilde{\mathbf{p}} \right) \sim \left( \mathbf{0} , \widetilde{\Sigma} \right) $$ 고, 드 무아브르-라플라스 정리에 따라 다변량정규분포 $\mathcal{N}_{k-1}$ 에 대해 다음과 같이 나타낼 수 있다. $$ \widetilde{\Sigma}^{ - 1/2} \left( \widetilde{N} - n \widetilde{\mathbf{p}} \right) \overset{D}{\to} \mathcal{N}_{k-1} \left( \mathbf{0} , I_{k-1} \right) $$ 이 때 분포수렴해서 표준정규분포를 따르는 각 성분을 $Z_{j} \sim N \left( 0, 1 \right)$ 나타내고, $S$ 의 특성함수를 $\phi$ 라 정의하자. $\left( Z_{1} , \cdots ,Z_{k-1} \right)$ 의 공분산행렬이 $I_{k-1}$ 이니 $i \ne j$ 일 때 $Z_{i}$ 와 $Z_{j}$ 는 물론 독립이다.
레비의 연속성 정리: 가측공간 $\left( \mathbb{R}^{d} , \mathcal{B} \left( \mathbb{R}^{d} \right) \right)$ 이 주어져 있다고 하자. $n \in \overline{\mathbb{N}}$ 에 대해 확률측도를 $\mu_{n}$ 로, 그에 대응되는 특성함수를 $\varphi_{n}$ 이라 나타내자. 다음은 서로 동치다.
- (a): $\mu_{n}$ 가 $\mu_{\infty}$ 로 약하게 수렴한다.
- (b): 모든 $t \in \mathbb{R}^{d}$ 에 대해 $$\lim_{n \to \infty} \varphi_{n} (t) = \varphi_{\infty} (t)$$
$\phi$ 는 $n \to \infty$ 일 때 레비의 연속성 정리에 따라 $Z \sim N (0,1)$ 에 대해 $$ \begin{align*} \phi (t) =& E \left[ e^{itS} \right] \\ =& E \left[ \exp \left( it \left( \widetilde{N} - n \widetilde{\mathbf{p}} \right)^{T} \widetilde{\Sigma}^{ - 1} \left( \widetilde{N} - n \widetilde{\mathbf{p}} \right) \right) \right] \\ \overset{D}{\to} & E \left[ \exp \left( it \left( Z^{2}_{1} + \cdots + Z^{2}_{k-1} \right) \right) \right] \\ = & \left[ E \left[ \exp \left( it Z^{2} \right) \right] \right]^{k-1} \end{align*} $$
카이제곱분포의 성질:
- 표준정규분포의 제곱과의 관계: $X \sim N(\mu,\sigma ^2)$ 면 $$ V=\left( { X - \mu \over \sigma} \right) ^2 \sim \chi ^2 (1) $$
- 적률생성함수: $$m(t) = (1-2t)^{-r/2} \qquad , t < {{ 1 } \over { 2 }}$$
$$ \begin{align*} \phi (t) \overset{D}{\to} & \left[ E \left[ \exp \left( it Z^{2} \right) \right] \right]^{k-1} \\ =& \left[ {{ 1 } \over { \left( 1 - 2it \right)^{1/2} }} \right]^{k-1} \\ =& (1-2it)^{-(k-1)/2} \end{align*} $$ 따라서 $S$ 는 카이제곱분포 $\chi^{2} \left( k-1 \right)$ 로 분포수렴한다.
■
https://ocw.mit.edu/courses/18-443-statistics-for-applications-fall-2003/708680f9de8209158ca6462577a46a56_lec23.pdf ↩︎
Benhamou. (2018). Seven proofs of the Pearson Chi-squared independence test and its graphical interpretation: https://arxiv.org/abs/1808.09171 ↩︎