이원분산분석

가설검정 ¹

실험 설계 상 $k$ 개의 처리와 $b$ 개의 블럭이 있어서 $n = bk$ 개의 표본을 얻었다고 하자. $j = 1 , \cdots , k$ 번째 처리의 표본이 각자 독립적이고 랜덤하게 정규분포 $N \left( \mu_{j} , \sigma_{j}^{2} \right)$ 를 따르며, 각 정규분포의 모분산이 같아서 $\sigma^{2} = \sigma_{1}^{2} = \cdots = \sigma_{k}^{2}$ 라 가정하자. 집단 간의 모평균를 비교하는 분산분석인 이원분산분석^{two-way ANOVA}에서 가설검정은 다음과 같다.

$H_{0}$: $\mu_{1} = \cdots = \mu_{k}$
$H_{1}$: 적어도 하나의 $\mu_{j}$ 는 다른 모평균과 다르다.

검정통계량

랜덤화블럭설계계 하에서 아노바 테이블이 주어져 있다고 하자.

Source	df	SS	MS	F
Treatments	$k-1$	SST	MST	MST/MSE
Blocks	$b-1$	SSB	MSB
Error	$(k-1)(b-1)$	SSE	MSE
Total	$n-1$	TSS

검정통계량은 다음과 같다. $$ F = {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST} / (k - 1) }{ \text{SSE} / (k - 1)(b - 1) }} $$ 이 검정통계량은 귀무가설이 참이라는 가정 하에 자유도가 $(k-1), (k - 1)(b - 1)$ 인 F-분포 $F \left( k - 1 , (k - 1)(b - 1) \right)$ 를 따른다.

설명

처리별 평균을 $\bar{x}_{j} := \sum_{i} x_{ij} / n_{j}$ 라 하고, 전체 평균을 $\bar{x} := \sum_{ij} x_{ij} / n$ 이라 하자. $$ \begin{align*} \text{SST} =& \sum_{j=1}^{k} n_{j} \left( \bar{x}_{j} - \bar{x} \right)^{2} \\ \text{SSE} =& \left( n_{1} - 1 \right) s_{1}^{2} + \cdots + \left( n_{k} - 1 \right) s_{k}^{2} \\ \text{SSB} =& \sum_{i=1}^{b} \left( x_{i} - \bar{x} \right)^{2} \\ \text{MST} =& {\frac{ \text{SST} }{ k - 1 }} \\ \text{MSB} =& {\frac{ \text{SSB} }{ b - 1 }} \\ \text{MSE} =& {\frac{ \text{SSE} }{ (b-1)(k-1) }} \\ F =& {\frac{ \text{MST} }{ \text{MSE} }} = {\frac{ \text{SST}/ (k - 1) }{ \text{SSE} / (b-1)(k-1) }} = {\frac{ \text{SST}}{ \text{SSE} / (b-1) }} \end{align*} $$ 검정통계량의 유도 그 자체는 분산분석에서의 F-검정을 참고하도록 하자.

주의사항

한가지 주의할 것은, 이원분산분석에서 블럭이 추가되었다고는 하나 여전히 주된 관심의 대상은 처리 간의 차이에 있으니 $\text{MSB}$ 는 신경쓰지 않아도 된다는 점이다². 검정통계량 $F$ 를 보면 $\text{SST}$ 만을 사용하고 있는데, 일원분산분석의 검정통계량과 비교하보면 오직 자유도로 나누는 부분만 달라진다. 물론 다음과 같이 블럭 간의 차이를 검정하기 위한 $F_{B}$ 가 있을 수 없다는 말은 아니고, 처리 간의 차이에 가장 먼저 집중해야한다는 것이 요지다. $$ F_{B} = {\frac{ \text{MSB} }{ \text{MSE} }} = {\frac{ \text{SSB} / (b - 1) }{ \text{SSE} / (b-1)(k-1) }} = {\frac{ \text{SSB}}{ \text{SSE} / (k-1) }} $$ 원래의 $F$ 와 유사하게, 이 검정통계량은 귀무가설이 참이라는 가정 하에 자유도가 $(b-1), (b-1)(k-1)$ 인 F-분포 $F \left( b - 1 , (b - 1)(k - 1) \right)$ 를 따른다.

예시 ³

한 대학이 연구실에서 봄, 가을, 겨울 별로 가스 사용량이 달라질 수 있는지 파악하려고 한다. 물론 연구실은 그마다의 특징이나 선호가 다르기 때문에 비슷한 조건을 갖춘 네 개의 연구실 A, B, C, D을 블록으로 두어 각 연구실 간의 편차를 해소하기로 했다. 네 연구실의 계절별 가스 사용량을 데이터로써 두고 랜덤화블럭설계 하에서 분석해보자. 귀무가설은 각 계절별로 평균 가스 사용량이 같다는 것이고, 대립가설은 적어도 하나의 계절의 평균 가스 사용량이 다르다는 것이다.

Lab	Spring	Fall	Winter
A	27	68	308
B	24	76	326
C	31	65	312
D	23	67	300

전체 평균은 135.6, 계절별 평균은 봄 26.3, 가을 69.0, 겨울 311.5다.

처리의 수는 $k = 3$, 블럭의 수는 $b = 4$ 이므로 $\text{SST} = 189,335.2$ 와 $\text{SSE} = 241.5$ 에 대해 $F$ 는 다음과 같이 구해진다. $$ F = {\frac{ \text{SST} / }{ \text{SSE} /(b - 1) }} = {\frac{ 189,335.2 / 2 }{ 241.5 / 3 }} = 2352.0 $$ $(k-1) = 2$ 고 $(k-1)(b-1) = 6$ 이므로, 유의수준 $\alpha = 5\%$ 에서 기각역의 하한은 $F_{2, 6} (0.05) = 5.14$ 고 $F \gg 5.14$ 이므로 귀무가설을 기각할 수 있다. 다시 말해, 적어도 하나의 계절의 평균 가스 사용량이 다른 계절의 평균 가스 사용량과 다르다.

한편 앞에서 언급했듯 블록에 따른 차이를 꼭 검정해야할 필요는 없지만, 블럭에 대한 검정통계량은 $F_{B} = 1.84$ 으로써 $F_{3, 6} (0.05) = 4.76$ 보다 작아서 귀무가설을 기각할 수 없다. 다시 말해, 연구실별로는 가스 사용량이 다르지 않다.

검산

alt text

같이보기

분산분석의 $F$ 검정

실험설계	모수적 기법	비모수적 기법
완전랜덤화설계	일원분산분석	크루스칼-월리스 $H$ 검정
랜덤화블럭설계	이원분산분석	프리드만 $F_{r}$ 검정

Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p471. ↩︎
경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p291. ↩︎
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p469. ↩︎