logo

합동분산의 정의 📂수리통계학

합동분산의 정의

빌드업

분포가 $X \sim \left( \mu , \sigma^{2} \right)$ 인 모집단에서 상호독립으로 뽑은 $n$개의 샘플들이 실제로는 $m$가지의 모집단 $\left( \mu_{1} , \sigma_{1}^{2} \right), \cdots , \left( \mu_{m} , \sigma_{m}^{2} \right)$ 에서 $n_{1} , \cdots , n_{m}$개씩 뽑힌 랜덤샘플들을 모아놓았다고 하자. $$ \begin{align*} \left\{ X_{1} \right\}_{n_{1}} \overset{\text{iid}}{\sim} & \left( \mu_{1} , \sigma_{1}^{2} \right) \\ \vdots & \\ \left\{ X_{m} \right\}_{n_{m}} \overset{\text{iid}}{\sim} & \left( \mu_{m} , \sigma_{m}^{2} \right) \end{align*} $$ 물론 전체 표본의 수는 $n = \sum_{i=1}^{m} n_{i}$ 이다. 한편 각각의 모집단에서는 iid를 가정해서 그 순서를 따지는 게 의미가 없으므로 $X_{k}$ 와 같이 $k$ 인덱스를 쓰면 모집단 전체에서 $\left\{ X_{k} \right\}_{k=1}^{n} \sim \left( \mu , \sigma^{2} \right)$ 라 보고, $i$ 인덱스를 쓰면 $i$번째 집단의 확률변수 $X_{i} \overset{\text{iid}}{\sim} \left( \mu_{i} , \sigma_{i}^{2} \right)$ 라 나타내자. 이제 우리는 원래 큰 모집단의 모평균 $\mu$ 와 $\sigma^{2}$ 를 각각 모합동평균population pooled mean, 모합동분산population pooled variance이라 부를 것이다. 이 포스트의 궁극적인 목표는 단순히 ‘합동분산의 정의’를 살펴보는 게 아니라 그 불편추정량인 표본합동분산 $S_{p}^{2}$ 를 유도하는 것이다. 의외로 인터넷 상에서는 제대로된 증명을 해놓은 게시해둔 곳이 없으니, 당장 필요하지 않더라도 여기서 볼 수 있다는 사실을 기억해두도록 하자.

모합동평균

우선은 모합동평균과 항동분산이 각각의 모평균과 모분산들로 나타날 수 있는지 먼저 살펴보도록 하자. 평균과 분산의 정의에 따라, 모합동평균은 $$ \begin{align*} n \mu =& n_{1} \mu + \cdots n_{m} \mu \\ =& \sum_{k=1}^{n} E X_{k} \\ =& \sum_{i=1}^{m} n_{i} E X_{i} \\ =& n_{1} \mu_{1} + \cdots n_{m} \mu_{m} \end{align*} $$ 를 만족시키므로 $$ \mu = {{ n_{1} \mu_{1} + \cdots n_{m} \mu_{m} } \over { n_{1} + \cdots + n_{m} }} $$ 와 같이 각 집단의 모평균들이 그 표본의 수를 가중치를 가지는 가중평균으로 나타난다.

모합동분산

모합동분산 역시 iid는 아니지만 $X_{k}$ 들은 상호독립으로 샘플링되었으므로 독립일 때 분산의 선형성에 따라 $$ \begin{align*} n \sigma^{2} =& n_{1} \sigma^{2} + \cdots n_{m} \sigma^{2} \\ =& \sum_{k=1}^{n} E \left( X_{k} - \mu \right)^{2} \\ =& E \sum_{k=1}^{n} \left( X_{k} - \mu \right)^{2} \\ =& E \sum_{i=1}^{m} n_{i} X_{i}^{2} - 2 E \sum_{i=1}^{m} n_{i} X_{i} \mu_{i} + \sum_{i=1}^{m} n_{i} \mu_{i}^{2} \\ =& E \sum_{i=1}^{m} n_{i} \left( X_{i} - \mu_{i} \right)^{2} \\ =& n_{1} \sigma_{1}^{2} + \cdots n_{m} \sigma_{m}^{2} \end{align*} $$ 를 만족시키므로 $$ \sigma = {{ n_{1} \sigma_{1}^{2} + \cdots n_{m} \sigma_{m}^{2} } \over { n_{1} + \cdots + n_{m} }} $$ 와 같이 각 집단의 모분산들이 그 표본의 수를 가중치로 가지는 가중평균으로 나타난다. 이제 표본이 등분산성homoscedasticity을 가지는 경우, 즉 모평균만 다르고 $\sigma = \sigma_{1} = \cdots = \sigma_{m}$ 를 가정할 수 있을 때 불편추정량인 표본합동분산 $S_{p}^{2}$ 를 알아보자.

공식

표본합동분산

$$ \begin{align*} \left\{ X_{1} \right\}_{n_{1}} \overset{\text{iid}}{\sim} & \left( \mu_{1} , \sigma^{2} \right) \\ \vdots & \\ \left\{ X_{m} \right\}_{n_{m}} \overset{\text{iid}}{\sim} & \left( \mu_{m} , \sigma^{2} \right) \end{align*} $$ 표본합동분산sample pooled variance $S_{p}^{2}$ 은 각 표본분산 $S_{1}^{2} , \cdots , S_{m}^{2}$ 들이 그 자유도를 가중치로 가지는 가중평균으로 나타난다. $$ S_{p}^{2} := {{ \left( n_{1} - 1 \right) S_{1}^{2} + \cdots + \left( n_{m} - 1 \right) S_{m}^{2} } \over { \left( n_{1} - 1 \right) + \cdots + \left( n_{m} - 1 \right) }} = {{ \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} } \over { \sum_{i=1}^{m} \left( n_{i} - 1 \right) }} $$ 이렇게 정의된 표본합동분산 $S_{p}^{2}$ 는 모합동분산 $\sigma^{2}$ 의 불편추정량이다. $$ E S_{p}^{2} = \sigma^{2} $$

유도

연립방정식 $$ \begin{align*} S_{1}^{2} =& {{ 1 } \over { n_{1} - 1 }} \sum_{j=1}^{n_{1}} \left( X_{1} - \overline{X}_{1} \right)^{2} \\ & \vdots \\ S_{m}^{2} =& {{ 1 } \over { n_{m} - 1 }} \sum_{j=1}^{n_{m}} \left( X_{m} - \overline{X}_{m} \right)^{2} \end{align*} $$ 에서 다음을 얻는다. 여기서 $j = 1 , \cdots , n_{i}$ 는 단순히 $n_{i}$ 을 반복하기 위한 인덱스로, 편의상 $X_{ij_{1}}$ 와 $X_{ij_{2}}$ 를 따로 쓰지는 않겠지만 이들이 독립이라는 점은 기억해야한다. $$ \begin{align*} & \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \left( X_{i} - \overline{X}_{i} \right)^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \left[ \left( X_{i} - \mu_{i} \right) + \left( \mu_{i} - \overline{X}_{i} \right) \right]^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \left[ \left( X_{i} - \mu_{i} \right)^{2} - 2 \left( X_{i} - \mu_{i} \right) \left( \overline{X}_{i} - \mu_{i} \right) + \left( \overline{X}_{i} - \mu_{i} \right)^{2} \right] \end{align*} $$

이제 양변에 기대값을 취하기 전에 각 항에 대한 기대값이 어떻게 되는지 살펴보자.

공분산의 성질: 평균이 각각 $\mu_{X}$, $\mu_{Y}$ 인 확률 변수 $X$, $Y$ 에 대해 $\operatorname{Cov} (X ,Y) : = E \left[ ( X - \mu_{X} ) ( Y - \mu_{Y} ) \right]$ 을 $X$ 와 $Y$ 의 공분산covariance이라고 정의한다. 공분산은 아래의 성질들을 가진다.

  • [1]: $\operatorname{Var} (X) = \operatorname{Cov} (X,X)$
  • [4]: $\operatorname{Cov} (X + Y , Z ) = \operatorname{Cov}(X,Z) + \operatorname{Cov}(Y,Z)$
  • [5]: $\operatorname{Cov} (aX + b , cY + d ) = ac \operatorname{Cov}(X,Y)$

가장 첫 항은 자명하게도 $E \left( X_{i} - \mu_{i} \right)^{2} = \sigma_{i}^{2}$ 다. $\overline{X}_{i} = \sum_{j} X_{i} / n_{i}$ 이고 iid, 즉 독립으로 뽑힌 $X_{ij_{1}} \perp X_{ij_{2}}$ 이므로 일반성을 잃지 않고 어떤 $j_{0} \in \left\{ 1, \cdots, n_{m} \right\}$ 에 대해 $$ \begin{align*} & E \left( X_{i} - \mu_{i} \right) \left( \overline{X}_{i} - \mu_{i} \right) \\ =& \operatorname{Cov} \left( X_{i} , \overline{X}_{i} \right) \\ =& \operatorname{Cov} \left( X_{i} , {{ {X}_{i} } \over { n_{i} }} \right) + \sum_{j \ne j_{0}} \operatorname{Cov} \left( X_{ij} , {{ {X}_{ij_{0}} } \over { n_{i} }} \right) \\ =& {{ 1 } \over { n_{i} }} \operatorname{Cov} \left( X_{i} , X_{i} \right) + 0 \\ =& {{ 1 } \over { n_{i} }} \operatorname{Var} X_{i} \\ =& {{ 1 } \over { n_{i} }} \sigma_{i}^{2} \end{align*} $$ 이고 표본평균의 표준오차 공식에 따라 $$ E \left( \overline{X}_{i} - \mu_{i} \right)^{2} = {{ 1 } \over { n_{i} }} \sigma_{i}^{2} $$ 이므로 등분산성 $\sigma = \sigma_{1} = \cdots = \sigma_{m}$ 을 가정하면 $$ \begin{align*} & E \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \sigma_{i}^{2} - 2 \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} {{ 1 } \over { n_{i} }} \sigma_{i}^{2} + \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} {{ 1 } \over { n_{i} }} \sigma_{i}^{2} \\ =& n \sigma^{2} - \sum_{i=1}^{m} \sigma_{i}^{2} \\ =& n \sigma^{2} - m \sigma^{2} \\ =& (n-m) \sigma^{2} \\ =& \sum_{i=1}^{m} \left( n_{i} - 1 \right) \sigma^{2} \end{align*} $$ 이므로 최종적으로 다음을 얻는다. $$ E S_{p}^{2} = E {{ \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} } \over { \sum_{i=1}^{m} \left( n_{i} - 1 \right) }} = \sigma^{2} $$