logo

분산분석의 F-검정 📂통계적검정

분산분석의 F-검정

가설검정 1

실험 설계kk 개의 처리가 있을 때, 각 처리에서 njn_{j} 개씩 총 n=n1++nkn = n_{1} + \cdots + n_{k} 개의 표본을 얻었다고 하자. j=1,,kj = 1 , \cdots , k 번째 처리의 표본이 각자 독립적이고 랜덤하게 정규분포 N(μj,σj2)N \left( \mu_{j} , \sigma_{j}^{2} \right) 를 따르며, 각 정규분포의 모분산이 같아서 σ2=σ12==σk2\sigma^{2} = \sigma_{1}^{2} = \cdots = \sigma_{k}^{2} 라 가정하자. 집단 간의 모평균를 비교하는 분산분석에서 가설검정은 다음과 같다.

  • H0H_{0}: μ1==μk\mu_{1} = \cdots = \mu_{k}
  • H1H_{1}: 적어도 하나의 μj\mu_{j} 는 다른 모평균과 다르다.

검정통계량

아노바 테이블이 주어져 있다고 하자.

SourcedfSSMSF
Treatmentsk1k-1SSTMSTMST/MSE
Errornkn-kSSEMSE
Totaln1n-1TSS

검정통계량은 다음과 같다. F=MSTMSE=SST/(k1)SSE/(nk) F = {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST} / (k - 1) }{ \text{SSE} / (n - k) }} 이 검정통계량은 귀무가설이 참이라는 가정 하에 자유도가 (k1),(nk)(k-1), (n-k)F-분포 F(k1,nk)F \left( k - 1 , n - k \right) 를 따른다.

설명

일원분산분석이든 이원분산분석이든 수식적인 유도는 거의 같고 블럭의 유무에 대한 차이만 있으니, 편의 상 이 포스트에서는 완전랜덤화설계 하의 일원분산분석을 기준으로 그 이론적인 배경만 다루도록 하겠다.

검정통계량의 유도과정에서 아노바 테이블을 통해 얻은 결과가 어떻게 가설검정으로 이어지는지 살펴보도록 하겠다. 기본적으로 선형대수와 수리통계에 대한 선행지식이 많이… 아주 많이 요구되기 때문에 학부생이라면 생략해도 좋고, 대학원생 정도 됐으면 도전해보도록 하자.

유도 2

Part 1. Zi2=Q1+Q2+Q3\sum Z_{i}^{2} = Q_{1} + Q_{2} + Q_{3}

처리별 평균을 xˉj:=ixij/nj\bar{x}_{j} := \sum_{i} x_{ij} / n_{j} 라 하고, 전체 평균을 xˉ:=ijxij/n\bar{x} := \sum_{ij} x_{ij} / n 이라 하자. SST=j=1knj(xˉjxˉ)2SSE=(n11)s12++(nk1)sk2MST=SSTk1MSE=SSEnkF=MSTMSE=SST/(k1)SSE/(nk) \begin{align*} \text{SST} =& \sum_{j=1}^{k} n_{j} \left( \bar{x}_{j} - \bar{x} \right)^{2} \\ \text{SSE} =& \left( n_{1} - 1 \right) s_{1}^{2} + \cdots + \left( n_{k} - 1 \right) s_{k}^{2} \\ \text{MST} =& {\frac{ \text{SST} }{ k - 1 }} \\ \text{MSE} =& {\frac{ \text{SSE} }{ n - k }} \\ F =& {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST}/ (k - 1) }{ \text{SSE} / (n - k) }} \end{align*}

일원분산분석에서의 아노바 테이블은 위와 같다. 귀무가설이 참이라는 가정 하에서는 어떤 μ\mu 에 대해 μ=μ1==μk\mu = \mu_{1} = \cdots = \mu_{k} 이라 둘 수 있고, z-스코어 ZijZ_{ij} 를 다음과 같이 두자. Zij:=(xijμσ)2N(0,1) Z_{ij} := \left( {\frac{ x_{ij} - \mu }{ \sigma }} \right)^{2} \sim N \left( 0, 1 \right) ZijZ_{ij} 의 제곱합은 다음과 같이 풀어 쓸 수 있다. j=1ki=1njZij2=j=1ki=1nj(xijμσ)2=1σ2j=1ki=1nj[(xijxˉj)+(xˉjxˉ)+(xˉμ)]2=1σ2j=1ki=1nj[(xijxˉj)2+(xˉjxˉ)2+(xˉμ)2]+2σ2j=1ki=1nj[(xijxˉj)(xˉjxˉ)+(xˉjxˉ)(xˉμ)+(xˉμ)(xijxˉj)] \begin{align*} & \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} Z_{ij}^{2} \\ =& \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ x_{ij} - \mu }{ \sigma }} \right)^{2} \\ =& {\frac{ 1 }{ \sigma^{2} }} \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left[ \left( x_{ij} - \bar{x}_{j} \right) + \left( \bar{x}_{j} - \bar{x} \right) + \left( \bar{x} - \mu \right) \right]^{2} \\ =& {\frac{ 1 }{ \sigma^{2} }} \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left[ \left( x_{ij} - \bar{x}_{j} \right)^{2} + \left( \bar{x}_{j} - \bar{x} \right)^{2} + \left( \bar{x} - \mu \right)^{2} \right] \\ &+ {\frac{ 2 }{ \sigma^{2} }} \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left[ \left( x_{ij} - \bar{x}_{j} \right) \left( \bar{x}_{j} - \bar{x} \right) + \left( \bar{x}_{j} - \bar{x} \right) \left( \bar{x} - \mu \right) + \left( \bar{x} - \mu \right) \left( x_{ij} - \bar{x}_{j} \right) \right] \end{align*} 여기서 마지막줄은 i=1nj(xijxˉj)=i=1njxijnj1nji=1njxij=0 \begin{align*} & \sum_{i=1}^{n_{j}} \left( x_{ij} - \bar{x}_{j} \right) \\ =& \sum_{i=1}^{n_{j}} x_{ij} - n_{j} {\frac{ 1 }{ n_{j} }} \sum_{i=1}^{n_{j}} x_{ij} \\ =& 0 \end{align*} 이고 j=1ki=1nj(xˉjxˉ)=j=1knj(xˉjxˉ)=j=1knjxˉjj=1knjxˉ=j=1knj1nji=1njxijnxˉ=0 \begin{align*} & \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( \bar{x}_{j} - \bar{x} \right) \\ =& \sum_{j=1}^{k} n_{j} \left( \bar{x}_{j} - \bar{x} \right) \\ =& \sum_{j=1}^{k} n_{j} \bar{x}_{j} - \sum_{j=1}^{k} n_{j} \bar{x} \\ =& \sum_{j=1}^{k} n_{j} {\frac{ 1 }{ n_{j} }} \sum_{i=1}^{n_{j}} x_{ij} - n \bar{x} \\ =& 0 \end{align*} 이므로 모두 00 이 되어 사라지고, ZijZ_{ij} 의 제곱합은 다음과 같이 적을 수 있다. j=1ki=1njZij2=j=1ki=1nj(xijxˉjσ)2+j=1ki=1nj(xˉjxˉσ)2+j=1ki=1nj(xˉμσ)2 \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} Z_{ij}^{2} = \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ x_{ij} - \bar{x}_{j} }{ \sigma }} \right)^{2} + \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ \bar{x}_{j} - \bar{x} }{ \sigma }} \right)^{2} + \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ \bar{x} - \mu }{ \sigma }} \right)^{2} 이제 우변의 세 시그마를 순서대로 Q1,Q2,Q3Q_{1}, Q_{2}, Q_{3} 이라 두자. j=1ki=1njZij2=Q1+Q2+Q3 \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} Z_{ij}^{2} = Q_{1} + Q_{2} + Q_{3}


Part 2. 코크란 정리

랜덤벡터 이차형식으로 나타낸 편차제곱합: 랜덤벡터 X=(X1,,Xn)\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)항등행렬 InRn×nI_{n} \in \mathbb{R}^{n \times n} 과 모든 성분이 11일행렬 JnRn×nJ_{n} \in \mathbb{R}^{n \times n} 에 대해 다음이 성립한다. XT(In1nJn)X=(n1)S2 \mathbf{X}^{T} \left( I_{n} - {\frac{ 1 }{ n }} J_{n} \right) \mathbf{X} = ( n - 1 ) S^{2} 여기서 S2S^{2}표본분산이다.

크기가 n×nn \times n항등행렬 InI_{n} 과 모든 성분이 11일행렬 JnJ_{n}블럭행렬대각행렬 diag\diag 에 대해 다음과 같이 세 개의 대칭행렬 A1,A2,A3A_{1} , A_{2} , A_{3} 을 정의하자. A1:=Indiag(1n1Jn1,,1nkJnk)A2:=diag(1n1Jn1,,1nkJnk)1nJnA3:=1nJn \begin{align*} A_{1} :=& I_{n} - \diag \left( {\frac{ 1 }{ n_{1} }} J_{n_{1}} , \cdots , {\frac{ 1 }{ n_{k} }} J_{n_{k}} \right) \\ A_{2} :=& \diag \left( {\frac{ 1 }{ n_{1} }} J_{n_{1}} , \cdots , {\frac{ 1 }{ n_{k} }} J_{n_{k}} \right) - {\frac{ 1 }{ n }} J_{n} \\ A_{3} :=& {\frac{ 1 }{ n }} J_{n} \end{align*} 블럭대각행렬의 각 블럭은 각 처리 jj 마다의 (nj1)sj2\left( n_{j} - 1 \right) s_{j}^{2} 을 위한 포석임을 알아두자. 이 세 행렬의 합은 그 정의에서 A1+A2+A3=InA_{1} + A_{2} + A_{3} = I_{n} 고, 일행렬의 랭크가 11 이라는 것부터 시작해서 세 행렬의 랭크가 다음과 같음을 어렵지 않게 알 수 있다. rankA1=nkrankA2=k1rankA3=1 \begin{align*} \rank A_{1} =& n - k \\ \rank A_{2} =& k - 1 \\ \rank A_{3} =& 1 \end{align*}

이제 벡터 ZRn×1\mathbf{Z} \in \mathbb{R}^{n \times 1}njn_{j}차원 벡터 (xj1,,xjnj)Rnj×1\left( x_{j1} , \cdots , x_{j n_{j}} \right) \in \mathbb{R}^{n_{j} \times 1} 들에 대해 다음과 같이 정의하자. Z:=[z1zk]=[(x11,,x1n1)(x1k,,xknk)]=[x11xknk] \mathbf{Z} := \begin{bmatrix} z_{1} \\ \vdots \\ z_{k} \end{bmatrix} = \begin{bmatrix} \left( x_{11} , \cdots , x_{1 n_{1}} \right) \\ \vdots \\ \left( x_{1k} , \cdots , x_{k n_{k}} \right) \end{bmatrix} = \begin{bmatrix} x_{11} \\ \vdots \\ x_{k n_{k}} \end{bmatrix} 벡터 표기에 따라 ZijZ_{ij} 의 제곱합은 다음과 같이 쓸 수 있다. j=1ki=1njZij2=Q1+Q2+Q3=ZTA1Z+ZTA2Z+ZTA3Z \begin{align*} \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} Z_{ij}^{2} =& Q_{1} + Q_{2} + Q_{3} \\ =& \mathbf{Z}^{T} A_{1} \mathbf{Z} + \mathbf{Z}^{T} A_{2} \mathbf{Z} + \mathbf{Z}^{T} A_{3} \mathbf{Z} \end{align*}

코크란 정리: 샘플 X=(X1,,Xn)\mathbf{X} = \left( X_{1} , \cdots , X_{n} \right)X1,,XniidN(0,σ2)X_{1} , \cdots , X_{n} \overset{\text{iid}}{\sim} N \left( 0, \sigma^{2} \right) 와 같이 iid정규분포를 따른다고 하자. 랭크rjr_{j}대칭행렬 A1,,AkRn×nA_{1} , \cdots , A_{k} \in \mathbb{R}^{n \times n} 에 대해 확률변수 Q1,,QkQ_{1} , \cdots , Q_{k}랜덤벡터 이차형식 Qi:=XTAiXQ_{i} := \mathbf{X}^{T} A_{i} \mathbf{X} 와 같이 나타난다고 하고 샘플의 제곱합이 i=1nXi2=j=1kQj\sum_{i=1}^{n} X_{i}^{2} = \sum_{j=1}^{k} Q_{j} 이라고 하면, 다음이 성립한다. j,Qjσ2χ2(rj)j1j2,Qj1Qj2    j=1krj=n \forall j , {\frac{ Q_{j} }{ \sigma^{2} }} \sim \chi^{2} \left( r_{j} \right) \land \forall j_{1} \ne j_{2} , Q_{j_{1}} \perp Q_{j_{2}} \iff \sum_{j=1}^{k} r_{j} = n 다시 말해, QjQ_{j} 들이 서로 독립이고 카이제곱분포 χ2(rj)\chi^{2} \left( r_{j} \right) 를 따르는 것과 동치조건은 랭크 rjr_{j} 들의 합이 샘플의 크기 nn 과 같다는 것이다.

Z\mathbf{Z} 의 각 성분이 표준정규분포 N(0,12)N \left( 0 , 1^{2} \right) 를 따르고 l=13rankAl=n\sum_{l=1}^{3} \rank A_{l} = n 이므로, 코크란 정리에 따라 Q1Q_{1}Q2Q_{2} 는 다음과 같이 독립이면서 카이제곱분포를 따른다. Q1=Q112χ2(rankA1)=χ2(nk)Q2=Q212χ2(rankA2)=χ2(k1) \begin{align*} Q_{1} = {\frac{ Q_{1} }{ 1^{2} }} \sim& \chi^{2} \left( \rank A_{1} \right) = \chi^{2} \left( n - k \right) \\ Q_{2} = {\frac{ Q_{2} }{ 1^{2} }} \sim& \chi^{2} \left( \rank A_{2} \right) = \chi^{2} \left( k - 1 \right) \end{align*} 한편 이 Q1Q_{1}Q2Q_{2}SSE\text{SSE}SST\text{SST} 에 대해 다음과 같이 나타낼 수 있다. Q1=j=1ki=1nj(xijxˉjσ)2=1σ2[(n11)s12++(nk1)sk2]=1σ2SSEQ2=j=1ki=1nj(xˉjxˉσ)2=1σ2j=1knj(xˉjxˉ)2=1σ2SST \begin{align*} Q_{1} =& \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ x_{ij} - \bar{x}_{j} }{ \sigma }} \right)^{2} =& {\frac{ 1 }{ \sigma^{2} }} \left[ \left( n_{1} - 1 \right) s_{1}^{2} + \cdots + \left( n_{k} - 1 \right) s_{k}^{2} \right] =& {\frac{ 1 }{ \sigma^{2} }} \text{SSE} \\ Q_{2} =& \sum_{j=1}^{k} \sum_{i=1}^{n_{j}} \left( {\frac{ \bar{x}_{j} - \bar{x} }{ \sigma }} \right)^{2} =& {\frac{ 1 }{ \sigma^{2} }} \sum_{j=1}^{k} n_{j} \left( \bar{x}_{j} - \bar{x} \right)^{2} =& {\frac{ 1 }{ \sigma^{2} }} \text{SST} \end{align*}


Part 3. F-분포 유도

독립인 두 카이제곱분포에서 F-분포 유도: 두 확률 변수 U,VU,V독립이고 Uχ2(r1)U \sim \chi^{2} ( r_{1}), Vχ2(r2)V \sim \chi^{2} ( r_{2}) 이라 하면 U/r1V/r2F(r1,r2) {{ U / r_{1} } \over { V / r_{2} }} \sim F \left( r_{1} , r_{2} \right)

F=MSTMSE=SST/(k1)SSE/(nk)=(SST/σ2)/(k1)(SSE/σ2)/(nk)=Q2/(k1)Q1/(nk)F(k1,nk) \begin{align*} F =& {\frac{ \text{MST} }{ \text{MSE} }} \\ =& {\frac{ \text{SST} / (k - 1) }{ \text{SSE} / (n - k) }} \\ =& {\frac{ \left( \text{SST} / \sigma^{2} \right) / (k - 1) }{ \left( \text{SSE} / \sigma^{2 }\right) / (n - k) }} \\ =& {\frac{ Q_{2} / (k-1)}{ Q_{1} / (n-k) }} \\ \sim& F \left( k - 1 , n - k \right) \end{align*} 이에 따라 귀무가설이 참이라는 가정 하에서 검정통계량 FF 가 F-분포를 따르는 것을 알 수 있다.

따름 정리

한편 증명 과정에서 Q2Q_{2} 가 카이제곱분포를 따른다는 팩트는 통계학 전반에서 매우 폭넓게 쓰인다.

모평균을 알 때의 편차제곱의 가중합

실험 설계kk 개의 처리가 있을 때, 각 처리에서 njn_{j} 개씩 총 n=n1++nkn = n_{1} + \cdots + n_{k} 개의 표본을 얻었다고 하자. j=1,,kj = 1 , \cdots , k 번째 처리의 표본이 각자 독립적이고 랜덤하게 정규분포 N(μj,σj2)N \left( \mu_{j} , \sigma_{j}^{2} \right) 를 따르며, 각 정규분포의 모분산이 같아서 σ2=σ12==σk2\sigma^{2} = \sigma_{1}^{2} = \cdots = \sigma_{k}^{2} 라 가정하자. 다음과 같은 편차제곱의 가중합으로 정의되는 통계량자유도(k1)(k-1)카이제곱분포를 따른다. j=1k(xˉjxˉ)2σ2/njχ2(k1) \sum_{j=1}^{k} \frac{ \left( \bar{x}_{j} - \bar{x} \right)^{2} }{ \sigma^{2} / n_{j} } \sim \chi^{2} \left( k - 1 \right) 이는 (xˉjxˉ)\left( \bar{x}_{j} - \bar{x} \right) 가 정규분포를 따른다면 표본 그 자체가 정규분포를 따르지 않더라도 성립한다.


증명 과정에서 코크란 정리를 사용하는 부분을 보면 실제로는 표본 그 자체가 아니라 Z\mathbf{Z} 의 정규성을 필요로 하는데, 그럼에도 분산분석에서 표본의 정규성을 가정하는 이유는 Z\mathbf{Z} 의 정규성 자체가 표본의 정규성에서 왔기 때문이다.

같이보기


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p455. ↩︎

  2. https://statproofbook.github.io/P/anova1-f.html ↩︎