logo

통계학에서 분산분석 혹은 ANOVA란? 📂통계적검정

통계학에서 분산분석 혹은 ANOVA란?

정의 1 2

두 개 이상 집단들의 모평균을 비교하기 위해 분산을 분석하는 것을 분산분석analysis of variance이라 하고, 줄여서 아노바ANOVA라 부르기도 한다.

설명

직관적으로는 모평균을 비교하기 위해서는 그 표본평균을 비교해야할 것 같지만, 통계적인 센스에서 단순한 수치의 비교는 큰 의미가 없다.

AB1.png

A의 평균B의 평균
0.01420.0271

예를 들어 위와 같이 $A$ 와 $B$ 두 집단에서 얻은 표본들의 히스토그램을 보자. 계산상으로는 $A$ 집단의 표본평균이 $.0142$, $B$ 집단의 표본평균이 $.0271$ 로 $B$ 집단이 근소하게 더 크다. 그러나 이렇게 단순히 값만 비교하는 것은 초등학생도 할 수 있는 일이고, 진정한 의미에서 두 집단의 모평균에 차이가 있느냐고 묻는다면 선뜻 그렇다고 답하기가 어렵다.

AB2.png

이번에는 거의 같은 표본평균을 가지되 데이터들의 분산이 작아 각각의 모평균 근처에 잘 모여있는 데이터를 비교해보자. 표본평균의 차이는 아까 전 상황과 거의 똑같지만, 분산이 달라지자 확실히 모평균의 차이를 말할 수 있게 되었다.

여기까지가 분산분석의 ‘평균을 비교하기 위해 분산을 분석한다’는 기본 컨셉이다. 실제 분산분석은 크게 일원분산분석이원분산분석으로 나뉘며, $k$ 개의 모집단이 있을 때 다음과 같이 $k$ 개의 모평균이 모두 같은지를 귀무가설로 둔다.

  • $H_{0}$: $\mu_{1} = \cdots = \mu_{k}$
  • $H_{1}$: 적어도 하나의 $\mu_{i}$ 는 다른 모평균과 다르다.

같이보기


  1. 경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p285. ↩︎

  2. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p449. ↩︎