베이즈 인자를 통한 가설검정
빌드업
고전적인 가설검정을 쓸 수 있게 되려면 기각역, 유의확률과 같은 개념에 대한 수학적인 이해를 포함해서 이를 직관적으로 받아들일 수 있을 정도의 통계학적 센스까지 갖추어야한다. 학부 1학년 교양 수준에서도 몇 시간이나 할애해가며 가르치고, 그래도 가설검정을 제대로 받아들이지 못하는 학생이 수두룩한 것도 당연한 일이다. 고등학교에서 배우는 통계가 문제 풀이는 쉬워도 그 진정한 의미까지 이해한 학생은 많지 않은 것과 비슷하다.
가설검정 1
반면 베이지안 통계는 베이즈 인자Bayes Factor라는 것을 통해 가설검정을 아주 쉽게 할 수 있다.
귀무가설과 대립가설이 $H_{0}$ vs $H_{1}$ 로 주어져 있다고 하자.
- $\pi_{0}, \pi_{1}$ 을 각각 귀무가설, 대립가설에 대한 사전정보라 한다.
- $\alpha_{0}, \alpha_{1}$ 을 각각 귀무가설, 대립가설에 대한 사후정보라 한다.
- $\displaystyle B_{01} := {{ \alpha_{0 } / \alpha_{1} } \over { \pi_{0 } / \pi_{1} }} = {{ \alpha_{0 } / \pi_{0} } \over { \alpha_{1 } / \pi_{1} }}$ 를 $H_{0}$ 를 지지하는 베이즈 인자라 한다.
여기서 베이즈 인자를 잘 살펴보면 $$ B_{01} = {{ \displaystyle {{ \alpha_{0} } \over { \cdot }} } \over { \displaystyle {{ \cdot } \over { \pi_{1} }} }} $$ 의 $\cdot$ 엔 $\alpha_{1}$ 와 $\pi_{0}$ 가 각 위치에 자유롭게 들어가도 상관 없다. 따라서 수식을 복잡하게 외울 필요가 없고 그냥 제일 위엔 $\alpha_{0}$ 가, 제일 아래엔 $\pi_{1}$ 가 들어가는 것만 숙지하면 된다.
베이지안 분석에서의 가설검정은 $B_{01}$ 가 $1$ 보다 크면 귀무가설을 지지하고, $1$ 보다 작으면 대립가설을 지지하는 게 전부다. 특히 $$ B_{01} = {{ \alpha_{0 } / \pi_{0} } \over { \alpha_{1 } / \pi_{1} }} = {{ \text{귀무} } \over { \text{대립} }} $$ 으로 생각하면 한결 이해가 간단해진다. 쉽게 말해 데이터로 실제로 계산해봐서 귀무가설일 확률이 높으면 귀무가설을 지지하는 것이다. 기각역이니 유의확률이니 하는 걸 생각할 필요가 없다.
만약 $B_{01} = 3$ 이라고 한다면 그것은 사후정보가 $H_{0}$ 를 지지하는 정도가 $H_{1}$ 을 지지하는 정도의 $3$ 배라는 의미다.
제프리의 해석
이렇게 귀무가설을 지지하는 정도에 대해서 제프리는 아래와 같은 해석을 제안했다. $H_{0}$ 를 지지하는 관점에서 베이즈 인자의 값은 다음과 같이 해석된다.
- $1 \le B_{01} \le 3$: 약한 증거
- $3 < B_{01} \le 12$: 긍정적 증거
- $12 < B_{01} \le 150$: 강한 증거
- $150 \le B_{01}$: 아주 강한 증거
이러한 해석의 장점은 프리퀀티스트 가설검정의 ‘유의확률이 유의수준을 넘냐 안넘냐’와 같은 극단적인 이분법에 비해 훨씬 유연하다는 점이다. 회귀분석을 자주 쓰는 사람이라면 유의수준을 $\alpha = 0.05$ 으로 잡고 싶은데 유의확률이 $p = 0.069925$ 와 같이 나와서 회귀계수를 버려야했던 경험이 있을 것이다. 솔직히 분석자도 인간인 이상 이런 일을 겪으면 분할수밖에 없다. 그래서 백방으로 해결법을 찾아보지만 대부분은 무위로 그치게 된다.
그에 비해 베이지안 가설검정은 충분하면 충분한대로, 부족하면 부족한대로 자료를 있는 그대로 받아들이면 그만이다.
예제
$Y \sim B (10, \theta )$ 일 때 $\displaystyle H_{0} : \theta = {{1} \over {2}}$ vs $\displaystyle H_{1} : \theta \ne {{1} \over {2}}$ 에 대해 베이즈 검정을 하려한다. $H_{0}$ 와 $H_{1}$ 의 사전확률이 동일하고 $H_{1}$ 하에서 $\theta \sim \text{Beta} (1,1)$ 이며 관측값이 $Y=7$ 이다. 베이즈 인자 $B_{01}$ 을 구하라.
풀이
$$ \begin{align*} B_{01} =& {{ \alpha_{0 } / \pi_{0} } \over { \alpha_{1 } / \pi_{1} }} = {{ p ( y \mid \theta_{0} ) } \over { \int_{\Theta_{1}} p ( y \mid \theta ) g ( \theta ) d \theta }} = {{ p ( Y = 7 \mid \theta = {{1} \over {2}} ) } \over { \int_{\Theta_{1}} p ( y \mid \theta ) d \theta }} \\ =& {{ \binom{10}{7} \left( {{1} \over {2}} \right)^{7} \left( 1- {{1} \over {2}} \right)^{3} } \over { \int_{0}^{1} \binom{10}{7} \theta^{7} \left( 1 - \theta \right)^{3} d \theta }} = {{1} \over {2^{10}}} {{1} \over { \int_{0}^{1} \theta^{8-1} (1 - \theta)^{4-1} d \theta }} = {{1} \over {2^{10}}} {{ \Gamma ( 8 + 4 ) } \over { \Gamma ( 8 ) \Gamma ( 4 ) }} \\ =& {{1} \over {2^{10}}} {{ 11! } \over { 7! \cdot 3! }} = {{1} \over {2^{10}}} {{ 8 \cdot 9 \cdot 10 \cdot 11 } \over { 2 \cdot 3 }} = {{ 2^4 \cdot 3^2 \cdot 5 \cdot 11 } \over { 2^{11} \cdot 3 }} = {{ 165 } \over { 2^{7} }} = 1.2890625 \end{align*} $$ 따라서 $B_{01}$ 은 귀무가설을 지지하는 약한 증거가 된다.
김달호. (2013). R과 WinBUGS를 이용한 베이지안 통계학: p159~161. ↩︎