logo

합동분산의 정의 📂수리통계학

합동분산의 정의

빌드업

분포가 X(μ,σ2)X \sim \left( \mu , \sigma^{2} \right)모집단에서 상호독립으로 뽑은 nn개의 샘플들이 실제로는 mm가지의 모집단 (μ1,σ12),,(μm,σm2)\left( \mu_{1} , \sigma_{1}^{2} \right), \cdots , \left( \mu_{m} , \sigma_{m}^{2} \right) 에서 n1,,nmn_{1} , \cdots , n_{m}개씩 뽑힌 랜덤샘플들을 모아놓았다고 하자. {X1}n1iid(μ1,σ12){Xm}nmiid(μm,σm2) \begin{align*} \left\{ X_{1} \right\}_{n_{1}} \overset{\text{iid}}{\sim} & \left( \mu_{1} , \sigma_{1}^{2} \right) \\ \vdots & \\ \left\{ X_{m} \right\}_{n_{m}} \overset{\text{iid}}{\sim} & \left( \mu_{m} , \sigma_{m}^{2} \right) \end{align*} 물론 전체 표본의 수는 n=i=1mnin = \sum_{i=1}^{m} n_{i} 이다. 한편 각각의 모집단에서는 iid를 가정해서 그 순서를 따지는 게 의미가 없으므로 XkX_{k} 와 같이 kk 인덱스를 쓰면 모집단 전체에서 {Xk}k=1n(μ,σ2)\left\{ X_{k} \right\}_{k=1}^{n} \sim \left( \mu , \sigma^{2} \right) 라 보고, ii 인덱스를 쓰면 ii번째 집단의 확률변수 Xiiid(μi,σi2)X_{i} \overset{\text{iid}}{\sim} \left( \mu_{i} , \sigma_{i}^{2} \right) 라 나타내자. 이제 우리는 원래 큰 모집단의 모평균 μ\muσ2\sigma^{2} 를 각각 모합동평균population pooled mean, 모합동분산population pooled variance이라 부를 것이다. 이 포스트의 궁극적인 목표는 단순히 ‘합동분산의 정의’를 살펴보는 게 아니라 그 불편추정량인 표본합동분산 Sp2S_{p}^{2} 를 유도하는 것이다. 의외로 인터넷 상에서는 제대로된 증명을 해놓은 게시해둔 곳이 없으니, 당장 필요하지 않더라도 여기서 볼 수 있다는 사실을 기억해두도록 하자.

모합동평균

우선은 모합동평균과 항동분산이 각각의 모평균과 모분산들로 나타날 수 있는지 먼저 살펴보도록 하자. 평균과 분산의 정의에 따라, 모합동평균은 nμ=n1μ+nmμ=k=1nEXk=i=1mniEXi=n1μ1+nmμm \begin{align*} n \mu =& n_{1} \mu + \cdots n_{m} \mu \\ =& \sum_{k=1}^{n} E X_{k} \\ =& \sum_{i=1}^{m} n_{i} E X_{i} \\ =& n_{1} \mu_{1} + \cdots n_{m} \mu_{m} \end{align*} 를 만족시키므로 μ=n1μ1+nmμmn1++nm \mu = {{ n_{1} \mu_{1} + \cdots n_{m} \mu_{m} } \over { n_{1} + \cdots + n_{m} }} 와 같이 각 집단의 모평균들이 그 표본의 수를 가중치를 가지는 가중평균으로 나타난다.

모합동분산

모합동분산 역시 iid는 아니지만 XkX_{k} 들은 상호독립으로 샘플링되었으므로 독립일 때 분산의 선형성에 따라 nσ2=n1σ2+nmσ2=k=1nE(Xkμ)2=Ek=1n(Xkμ)2=Ei=1mniXi22Ei=1mniXiμi+i=1mniμi2=Ei=1mni(Xiμi)2=n1σ12+nmσm2 \begin{align*} n \sigma^{2} =& n_{1} \sigma^{2} + \cdots n_{m} \sigma^{2} \\ =& \sum_{k=1}^{n} E \left( X_{k} - \mu \right)^{2} \\ =& E \sum_{k=1}^{n} \left( X_{k} - \mu \right)^{2} \\ =& E \sum_{i=1}^{m} n_{i} X_{i}^{2} - 2 E \sum_{i=1}^{m} n_{i} X_{i} \mu_{i} + \sum_{i=1}^{m} n_{i} \mu_{i}^{2} \\ =& E \sum_{i=1}^{m} n_{i} \left( X_{i} - \mu_{i} \right)^{2} \\ =& n_{1} \sigma_{1}^{2} + \cdots n_{m} \sigma_{m}^{2} \end{align*} 를 만족시키므로 σ=n1σ12+nmσm2n1++nm \sigma = {{ n_{1} \sigma_{1}^{2} + \cdots n_{m} \sigma_{m}^{2} } \over { n_{1} + \cdots + n_{m} }} 와 같이 각 집단의 모분산들이 그 표본의 수를 가중치로 가지는 가중평균으로 나타난다. 이제 표본이 등분산성homoscedasticity을 가지는 경우, 즉 모평균만 다르고 σ=σ1==σm\sigma = \sigma_{1} = \cdots = \sigma_{m} 를 가정할 수 있을 때 불편추정량인 표본합동분산 Sp2S_{p}^{2} 를 알아보자.

공식

표본합동분산

{X1}n1iid(μ1,σ2){Xm}nmiid(μm,σ2) \begin{align*} \left\{ X_{1} \right\}_{n_{1}} \overset{\text{iid}}{\sim} & \left( \mu_{1} , \sigma^{2} \right) \\ \vdots & \\ \left\{ X_{m} \right\}_{n_{m}} \overset{\text{iid}}{\sim} & \left( \mu_{m} , \sigma^{2} \right) \end{align*} 표본합동분산sample pooled variance Sp2S_{p}^{2} 은 각 표본분산 S12,,Sm2S_{1}^{2} , \cdots , S_{m}^{2} 들이 그 자유도를 가중치로 가지는 가중평균으로 나타난다. Sp2:=(n11)S12++(nm1)Sm2(n11)++(nm1)=i=1m(ni1)Si2i=1m(ni1) S_{p}^{2} := {{ \left( n_{1} - 1 \right) S_{1}^{2} + \cdots + \left( n_{m} - 1 \right) S_{m}^{2} } \over { \left( n_{1} - 1 \right) + \cdots + \left( n_{m} - 1 \right) }} = {{ \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} } \over { \sum_{i=1}^{m} \left( n_{i} - 1 \right) }} 이렇게 정의된 표본합동분산 Sp2S_{p}^{2} 는 모합동분산 σ2\sigma^{2}불편추정량이다. ESp2=σ2 E S_{p}^{2} = \sigma^{2}

유도

연립방정식 S12=1n11j=1n1(X1X1)2Sm2=1nm1j=1nm(XmXm)2 \begin{align*} S_{1}^{2} =& {{ 1 } \over { n_{1} - 1 }} \sum_{j=1}^{n_{1}} \left( X_{1} - \overline{X}_{1} \right)^{2} \\ & \vdots \\ S_{m}^{2} =& {{ 1 } \over { n_{m} - 1 }} \sum_{j=1}^{n_{m}} \left( X_{m} - \overline{X}_{m} \right)^{2} \end{align*} 에서 다음을 얻는다. 여기서 j=1,,nij = 1 , \cdots , n_{i} 는 단순히 nin_{i} 을 반복하기 위한 인덱스로, 편의상 Xij1X_{ij_{1}}Xij2X_{ij_{2}} 를 따로 쓰지는 않겠지만 이들이 독립이라는 점은 기억해야한다. i=1m(ni1)Si2=i=1mj=1nm(XiXi)2=i=1mj=1nm[(Xiμi)+(μiXi)]2=i=1mj=1nm[(Xiμi)22(Xiμi)(Xiμi)+(Xiμi)2] \begin{align*} & \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \left( X_{i} - \overline{X}_{i} \right)^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \left[ \left( X_{i} - \mu_{i} \right) + \left( \mu_{i} - \overline{X}_{i} \right) \right]^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \left[ \left( X_{i} - \mu_{i} \right)^{2} - 2 \left( X_{i} - \mu_{i} \right) \left( \overline{X}_{i} - \mu_{i} \right) + \left( \overline{X}_{i} - \mu_{i} \right)^{2} \right] \end{align*}

이제 양변에 기대값을 취하기 전에 각 항에 대한 기대값이 어떻게 되는지 살펴보자.

공분산의 성질: 평균이 각각 μX\mu_{X}, μY\mu_{Y}확률 변수 XX, YY 에 대해 Cov(X,Y):=E[(XμX)(YμY)]\operatorname{Cov} (X ,Y) : = E \left[ ( X - \mu_{X} ) ( Y - \mu_{Y} ) \right]XXYY공분산covariance이라고 정의한다. 공분산은 아래의 성질들을 가진다.

  • [1]: Var(X)=Cov(X,X)\operatorname{Var} (X) = \operatorname{Cov} (X,X)
  • [4]: Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)\operatorname{Cov} (X + Y , Z ) = \operatorname{Cov}(X,Z) + \operatorname{Cov}(Y,Z)
  • [5]: Cov(aX+b,cY+d)=acCov(X,Y)\operatorname{Cov} (aX + b , cY + d ) = ac \operatorname{Cov}(X,Y)

가장 첫 항은 자명하게도 E(Xiμi)2=σi2E \left( X_{i} - \mu_{i} \right)^{2} = \sigma_{i}^{2} 다. Xi=jXi/ni\overline{X}_{i} = \sum_{j} X_{i} / n_{i} 이고 iid, 즉 독립으로 뽑힌 Xij1Xij2X_{ij_{1}} \perp X_{ij_{2}} 이므로 일반성을 잃지 않고 어떤 j0{1,,nm}j_{0} \in \left\{ 1, \cdots, n_{m} \right\} 에 대해 E(Xiμi)(Xiμi)=Cov(Xi,Xi)=Cov(Xi,Xini)+jj0Cov(Xij,Xij0ni)=1niCov(Xi,Xi)+0=1niVarXi=1niσi2 \begin{align*} & E \left( X_{i} - \mu_{i} \right) \left( \overline{X}_{i} - \mu_{i} \right) \\ =& \operatorname{Cov} \left( X_{i} , \overline{X}_{i} \right) \\ =& \operatorname{Cov} \left( X_{i} , {{ {X}_{i} } \over { n_{i} }} \right) + \sum_{j \ne j_{0}} \operatorname{Cov} \left( X_{ij} , {{ {X}_{ij_{0}} } \over { n_{i} }} \right) \\ =& {{ 1 } \over { n_{i} }} \operatorname{Cov} \left( X_{i} , X_{i} \right) + 0 \\ =& {{ 1 } \over { n_{i} }} \operatorname{Var} X_{i} \\ =& {{ 1 } \over { n_{i} }} \sigma_{i}^{2} \end{align*} 이고 표본평균의 표준오차 공식에 따라 E(Xiμi)2=1niσi2 E \left( \overline{X}_{i} - \mu_{i} \right)^{2} = {{ 1 } \over { n_{i} }} \sigma_{i}^{2} 이므로 등분산성 σ=σ1==σm\sigma = \sigma_{1} = \cdots = \sigma_{m} 을 가정하면 Ei=1m(ni1)Si2=i=1mj=1nmσi22i=1mj=1nm1niσi2+i=1mj=1nm1niσi2=nσ2i=1mσi2=nσ2mσ2=(nm)σ2=i=1m(ni1)σ2 \begin{align*} & E \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} \\ =& \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} \sigma_{i}^{2} - 2 \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} {{ 1 } \over { n_{i} }} \sigma_{i}^{2} + \sum_{i=1}^{m} \sum_{j = 1}^{n_{m}} {{ 1 } \over { n_{i} }} \sigma_{i}^{2} \\ =& n \sigma^{2} - \sum_{i=1}^{m} \sigma_{i}^{2} \\ =& n \sigma^{2} - m \sigma^{2} \\ =& (n-m) \sigma^{2} \\ =& \sum_{i=1}^{m} \left( n_{i} - 1 \right) \sigma^{2} \end{align*} 이므로 최종적으로 다음을 얻는다. ESp2=Ei=1m(ni1)Si2i=1m(ni1)=σ2 E S_{p}^{2} = E {{ \sum_{i=1}^{m} \left( n_{i} - 1 \right) S_{i}^{2} } \over { \sum_{i=1}^{m} \left( n_{i} - 1 \right) }} = \sigma^{2}