p-해킹이란?

용어

출판까지 된 연구 결과가 재현되지 않거나 후속 증거를 통해 반박되는 일은 그리 드문 일이 아니다¹. 연구자에 의한 출판 편향^{publication bias}은 크게 두 가지로, 파일 서랍장 효과^{file drawer effect}과 p-해킹^p-hacking이 있다. p-해킹은 연구결과가 유의미할때까지만 실험을 진행하거나 여러 반응변수 중 일부만을 발표하거나, 이상치를 포함하거나 제거하는 기준을 바꾸는 등의 방식으로 연구결과를 왜곡시키는 것을 말한다².

설명

우선 파일 서랍장 효과는 같은 연구라도 통계적으로 유의한 결과가 없을 경우 출판 자체가 되기 어려워지는 것을 말한다. 당연하다면 당연한건데, 예를 들어 멜론의 가격과 소말리아 해적의 수 사이의 관계를 연구하는 괴짜가 있다고 치자. 물론 이들 사이에서 어떤 관계를 찾아냈다면야 대단한 업적이시겠지만, 상식적으로 이들은 관련이 없으며 통계적으로 유의미한 결과를 내지 못할 것이다. 반대로 말하자면, 어떤 두 변인이 관계 없다는 주장은 그렇게 매력적이지 않으며 그것이 사실일지라도 출판되기 어렵고 그 지식이 검증되는 기회 자체가 줄어든다는 것이다. 이렇게 공허할 뿐인 사실들은 관심을 끌지 못하고 그렇게 책상 서랍장 한켠에서 영원히 잊혀지고, 우리는 우리도 모르는 사이에 지식의 편향을 겪어버린 셈이 된다.

p-해킹은 파일 서랍장 효과보다는 연구 윤리와 조금 더 가까운데, 데이터가 완전히 날조된 것은 아니지만 통계적으로 유의하다고 말할 수 있을 정도로 몇가지 데이터포인트를 추가/제거하거나 조건을 바꾸는 등의 방식으로 연구 결과를 왜곡시키는 것을 말한다. 이렇게까지만 들어보면 완전히 날조하는거나 약간만 바꾸는거나 뭐가 다르냐, 결국 조작한 건 똑같지 않냐는 반발심이 들겠지만 실상은 그렇게 단순하지 않다. 최후에 같은 수치를 얻는다고 해도 그 순서나 마인드에 따라 이해가 되는 행동이 있을 수도 있고 그렇지 않을 수도 있다.

…근본적으로 통계적인 가설검정에서 유의확률, 즉 p-값은 많은 오해를 사는 개념이다. p-값은 낮을수록 귀무가설을 기각하는 힘이 강해지는 것이 아니라, 단지 유의수준 $\alpha$ 이하로 내려가느냐 못내려가느냐의 단순한 쓰레숄딩으로써 해석된다. 개인적으로는 학부생 시절 교수님께 p-해킹이라는 개념에 대해 듣고 당연히 있을 수 있겠다는 생각을 했다. 당시 나는 통계학 전반을 감도는 찝찝함―이런 방식으로 데이터를 이해하는 게 맞는 걸까 하는 의구심을 떨쳐낼 수가 없었는데, 내가 우려하던 통계학의 약점이 실제로 학계에서 지적되는 것이었다.

왜 일어나는가

지금부터 왜 연구자들이 의식적으로든 무의식적으로든 p-해킹의 유혹에 빠지게 되는 몇가지 시나리오를 상상해보려 한다. 이 가상의 일화들은 p-해킹을 옹호하는 것이 아니라, 단지 p-해킹이 어떻게 일어날 수 있는지에 대한 이해를 돕기 위한 것이다. 그리고 이렇게 옹호하는 것이 아니라고 못을 박았음에도, 연구를 해본 사람이라면 상상 속 연구자의 입장에 공감이 될지도 모르겠다.

5.1%

우선 통계 전반에서 즐겨 쓰이는 유의수준 $\alpha = 0.05$ 는 특별한 근거 없이 널리 쓰이는 관행에 불과하다. 실제로는 분야나 데이터의 특성에 따라 여러가지 다른 $\alpha$ 가 쓰일 수 있는데, 예를 들어 천문학이나 물리학, 컴퓨터과학 등에서는 로그 스케일에 이를만큼 아주 작은 $\alpha \approx 0$, 의학이나 생물학처럼 살아있는 것을 다룰 땐 $\alpha = 0.05$, 심리학이나 사회과학같은 수준까지 되면 $\alpha = 0.1$ 도 쓰이지 못할 이유가 없다. 그러나 그럼에도 불구하고, 교과서를 비롯한 많은 통계학 자료에서 $\alpha = 0.05$ 를 기본으로 삼고 있고, 연구자들도 이 관행에 익숙해져 있다.

우리 상상 속의 어떤 과학자 X는 31번의 힘겨운 실험 끝에 통계적인 분석을 마쳤다. 이것으로 모든 시약을 사용했고, 실험에 쏟아부은 시간과 노력도 엄청났다. 분석 결과 확인한 p-값은 0.051로, 사실상 그의 가설이 옳았음을 의미했고 연구는 성공한 것이다. 그러나 연구는 연구고 논문은 논문이니, 기왕이면 p-값이 0.05 이하였으면 더 좋았겠다는 생각이 들었다. 그는 충분히 통계학을 이해했기에 $\alpha = 0.05$ 라는 관행이 무의미하다는 걸 알았지만, 그래도 논문을 읽는 독자들은 그렇게 생각하지 않을 것이고, 어쩌면 리뷰어도 그럴 것이다.

그는 돈과 명예에 눈이 멀어서 데이터를 완전히 날조하는 일부 학자들을 진심으로 경멸하고, 스스로 연구윤리를 지키는 사람이라고 생각한다. 그리고 이제부터, X는 여러가지 상황에 놓일 것이다. 이 사람의 행동이 옳은지 그른지 생각해보자.

A. 제거

X는 마지막 실험에 주목했다. 방금 막 실험을 끝냈기에 기억이 생생했고, 아직 연구노트에는 기록하지 않은 상태였다. 혹시나 하는 마음에 마지막 실험 결과를 제외하고 30개의 데이터포인트만을 가지고 분석해봤는데, p-값이 5% 이하로 내려가는 이상적인 결과를 얻었다.

그는 30번째 실험이 끝났을 때 이 사실을 알았다면 굳이 31번째 실험을 하지 않았을 것이라는 생각이 들었다. 31번째 실험은 사실상 불필요한 실험인데다가 연구결과의 가치를 훼손시키기까지 한다. 단지 시약이 아까워서 끝까지 했을 뿐인데, 이걸 굳이 추가할 이유가 있을까? 과거로 돌아가서 31번째 실험을 하지 않는 것이나, 지금 31번째 데이터를 제거하는 것은 결과적으로 같다. 더군다나, 30정도면 보통 대표본으로 받아들여지기 때문에 하나 정도 빠진다고 해도 표본의 크기가 지적받을 일은 없을 것이다. 그는 마지막 데이터를 빼고 논문을 제출했고, 훗날 이 논문이 고평가 받으며 교수가 되었다.

X는 제자들에게 무작정 실험을 많이 하는 것이 능사가 아니고, 늘 고민하라며 조언한다. 어떠한가?

B. 추가

X는 조금만 더 하면 더 좋은 결과를 낼 수 있을 것 같다는 기분이 들었다. 그는 상사에게 전화해 그 귀하고 비싼 시약을 더 구입해달라고 부탁했다. 한 달 뒤 시약이 도착했고, 그는 32번째 실험에서 p-값이 5.02%로 나오는 것을 보고 조금만 더, 조금만 더 하면 더 완벽한 결과를 얻을 수 있겠다고 생각했다.

그는 심혈을 기울이고 잠을 자는 시간까지 줄여가며 실험에 몰두했다. 그리고 35번째 실험이 끝났을 때, p-값이 4.98%로 아슬아슬하게 기각역에 걸치는 것을 확인했다. 포기하지 않고 더 노력하니까 더 좋은 결과를 얻은 것이다. 역시 연구자는 끈기가 중요하다. 아직 시약은 남아있지만, 이 정도면 표본의 크기는 충분하다. 그는 이 결과를 정리해서 논문을 제출했고, 훗날 이 논문이 고평가 받으며 교수가 되었다.

X는 가끔씩 제자들에게 이 때의 일화를 들려주며 노력의 가치를 강조한다. 어떠한가?

C. 이상치

X는 다시 한 번 자신의 데이터를 살펴보기 시작했다. 수준급의 전문가인 그는 좀처럼 실수하지 않지만, 오히려 전문가인만큼 자신을 돌아볼 줄도 안다. 그는 14번째 실험에서 얻은 수치가 이상치로 보이는 것을 깨닫고, 연구노트를 뒤져보니 실제로 그 날의 실험에서 사소한 트러블이 있었다는 기록을 발견했다.

그는 이 이상치를 제거하고 분석하는 것이 연구윤리에 어긋나는지 생각해보았는데, 솔직히 그러한 트러블을 몰랐으면 몰라도 변인이 제대로 통제되지 않았다는 걸 안 이상 이 실험은 폐기되는 것이 옳았다. 이것은 원래의 분석에서 p-값이 0.05보다 작았어도 마찬가지였을 것이다. 과학자로써 당연한 일이다. 물론 원래부터 그랬다면 굳이 데이터를 다시 볼 필요도 없었겠지만, 어쨌든 그는 이 이상치를 제거하고 다시 분석해서 유의수준 5% 이하의 분석 결과를 얻었다. 그는 이상치를 빼고 논문을 제출했고, 훗날 이 논문이 고평가 받으며 교수가 되었다.

X는 제자들이 실수할 때마다 데이터를 맹신하지 말고 비판적인 사고를 가지라고 한다. 어떠한가?

Ioannidis, J. P. (2005). Why most published research findings are false. PLoS medicine, 2(8), e124. https://doi.org/10.1371/journal.pmed.0020124 ↩︎
Head, M. L., Holman, L., Lanfear, R., Kahn, A. T., & Jennions, M. D. (2015). The extent and consequences of p-hacking in science. PLoS biology, 13(3), e1002106. https://doi.org/10.1371/journal.pbio.1002106 ↩︎