통계학에서 분산분석 혹은 ANOVA란?
정의 1 2
두 개 이상 집단들의 모평균을 비교하기 위해 분산을 분석하는 것을 분산분석analysis of variance이라 하고, 줄여서 아노바ANOVA라 부르기도 한다.
설명
직관적으로는 모평균을 비교하기 위해서는 그 표본평균을 비교해야할 것 같지만, 통계적인 센스에서 단순한 수치의 비교는 큰 의미가 없다.
A의 평균 | B의 평균 |
---|---|
0.0142 | 0.0271 |
예를 들어 위와 같이 와 두 집단에서 얻은 표본들의 히스토그램을 보자. 계산상으로는 집단의 표본평균이 , 집단의 표본평균이 로 집단이 근소하게 더 크다. 그러나 이렇게 단순히 값만 비교하는 것은 초등학생도 할 수 있는 일이고, 진정한 의미에서 두 집단의 모평균에 차이가 있느냐고 묻는다면 선뜻 그렇다고 답하기가 어렵다.
이번에는 거의 같은 표본평균을 가지되 데이터들의 분산이 작아 각각의 모평균 근처에 잘 모여있는 데이터를 비교해보자. 표본평균의 차이는 아까 전 상황과 거의 똑같지만, 분산이 달라지자 확실히 모평균의 차이를 말할 수 있게 되었다.
여기까지가 분산분석의 ‘평균을 비교하기 위해 분산을 분석한다’는 기본 컨셉이다. 실제 분산분석은 크게 일원분산분석과 이원분산분석으로 나뉘며, 개의 모집단이 있을 때 다음과 같이 개의 모평균이 모두 같은지를 귀무가설로 둔다.
- :
- : 적어도 하나의 는 다른 모평균과 다르다.