logo

가설검정의 쉬운 정의 📂통계적검정

가설검정의 쉬운 정의

정의 1 2

과학에서 모집단에 대한 어떤 추측을 통계적 가설이라 하며, 가설을 채택하거나 기각하는 통계적 의사결정 과정을 통계적 가설검정testing of Statistical Hypothesis이라 한다. 이러한 과정에는 두 개의 경쟁적인 가설이 있으며, 주로 연구자가 지지하길 원하는 가설을 대립가설alternative Hypothesis $H_{1}$ 이라 하고 그에 상반되어 대립가설이 참이라는 확실한 근거가 없을 때 받아들이는 가설을 귀무가설null Hypothesis $H_{0}$ 이라 한다. 가설검정을 위한 통계량검정통계량test Statistic이라 한다.

설명

통계학을 전공한다면 죽어서도 반복되는 싸움, 귀무가설 $H_{0}$ vs 대립가설 $H_{1}$ … 처음엔 아주 어렵지만, 보다보면 나름대로 미운 정 고운 정 다 드니까 너무 겁 먹지 말고 알아가보자.

교과서에 나오는 어려운 수학 이야기(기각역, 검정통계량, 유의수준 등)는 잠시 제쳐두고 일상적인 상황에서 가설검정이 어떻게 나올 수 있는지에 대한 예를 상상해보자. 가상의 제약사 A가 간 기능에 도움을 주는, 구체적으로는 간 수치 중 하나인 AST를 낮추는 신약 a를 출시하는 상황이다:

  • 신약이 상용화되려면 식약처 같은 기관의 어떤 시험들을 통과해야하는데, 이 경우엔 자명하게도 a가 AST를 낮춘다는 것을 입증해야한다. 당연히 그 방법은 ‘실제로 AST가 낮아진 사람을 10명 이상 데려오기’처럼 주먹구구식이 아니라 통계적으로 말이 되어야한다.
  • 그럼 100명 중에 10명 이상 혹은 ‘전제 임상 피실험자 중 10% 이상’을 넘기는 건 어떨까? 아까보단 합리적이지만, 단순히 11~40이 정상인 AST 수치를 500에서 490 정도로 내렸어도 효과를 본 것으로 간주하기는 어떤 문제가 있을지도 모르겠다는 생각이 든다.
  • 한가지 방법은 a를 꾸준히 복용한 $1$ 그룹과 a를 복용하지 않은 (플라시보) $2$ 그룹으로 나누어서 그 간수치의 평균을 비교하는 것이다. $1$ 그룹의 평균을 $\mu_{1}$ 이라 하고 $2$ 그룹의 평균을 $\mu_{2}$ 라 하면 제약사 A가 바라는 결과는 아마 다음과 같을 것이다. $$ \mu_{1} < \mu_{2} $$ 그럼 위에서 소개한 정의에 따라, 대립가설은 다음과 같이 정해진다. $$ H_{1}: \mu_{1} < \mu_{2} $$
  • 식만 봐서는 여전히 여전히 500과 490 수준을 비교하는 문제는 있어보이지만, 이제 한두 명의 개인이 아니라 표본집단이라는 통계를 가지고 이야기하게 되었다. 가령 똑같이 500 vs 490이라도 분산이 200씩 되면 이건 어쩌다 얻어걸린 우연일 수도 있다. 그러나 분산이 2 정도로 작다면 신약 a는 어떻게 봐도 AST를 낮춘 것으로 보인다. [ NOTE: 두 집단의 평균을 비교하기 위해서 그 분산을 사용하는 아이디어는 꽤 쓸만해보인다. 그걸 발전시킨 게 바로 분산분석aNOVA이다. ]
  • 그러나 당장은 가설검정으로 돌아와서 생각해보자. 대립가설이 저렇게 정해졌다면 귀무가설은 그와 상반되는 다음의 내용이 될 수 있다. $$ H_{0}: \mu_{1} \ge \mu_{2} $$ 여기서 중요한 것은 귀무가설이 받아들여지는 조건이 ‘대립가설이 참이라는 확실한 근거가 없다’고, 그렇다고 귀무가설 자체가 적극적으로 채택되는 것이 아니라는 점이다. 귀무가설이 받아들여지는 것은 귀무가설을 기각하지 못해서지 그것이 참임을 입증했기 때문이 아니다.
    • 가령 탐험가 콜럼버스의 대립가설이 ‘지구에는 아메리카 대륙이 존재한다’라면, 콜럼버스가 첫번째 탐험에서 아메리카를 찾지 못했다는 이유로 ‘지구에는 아메리카 대륙이 존재하지 않는다’라는 귀무가설이 참이 되는 게 아니라는 것이다. 아직 확실한 근거가 없어서 일단은 ‘아메리카 대륙이 존재하지 않는다’고 받아들일 뿐, 증거의 부재가 부재의 증거는 아니다.
  • 다행스럽게도 대립가설 $H_{1}$ 가 통계적인 근거에 의해 참이라고 하자. 그런데 엄격히 말해서, 이러한 분석을 통해서 밝혀진 것은 신약 a를 먹은 집단의 AST가 낮아졌을 뿐임에 주의해야한다. 임상의나 병리학자만큼 도메인domain, 분야에 대한 전문성을 갖추지 못한 분석자가 자신있게 말할 수 있는 것은 ‘어떤 이유가 됐든 신약의 효과는 확실하게 입증되었다’고, ‘신약 a가 어떠한 원리로 AST를 낮추었다’는 인과관계까지 말할 수 있는 근거가 되지는 못한다는 것이다.

같이보기


  1. 경북대학교 통계학과. (2008). 엑셀을 이용한 통계학: p199. ↩︎

  2. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p344. ↩︎