pハッキングとは何ですか?
用語
出版までこぎ着けた研究結果が再現されなかったり、後続の証拠によって反駁されることはそれほど珍しくない1。研究者による出版バイアスpublication biasは大きく二つに分けられ、ファイルドロワー効果file drawer effectとpハッキングp-hackingがある。pハッキングは研究結果が有意になるまで実験を続けたり、複数の反応変数のうち一部だけを報告したり、外れ値を含めたり除外する基準を変えたりすることで研究結果を歪めることを指す2。
説明
まずファイルドロワー効果は、同じ研究テーマでも統計的に有意な結果が得られない場合に出版そのものが困難になることを指す。言うまでもないことだが、例えばメロンの価格とソマリアの海賊の数の関係を研究する奇人がいるとしよう。もし両者の間に関係が見つかれば大した発見だが、常識的に考えて両者に関連はなく統計的に有意な結果は出ないだろう。逆に言えば、二つの変数に相関がないという主張はそれほど魅力的ではなく、それが事実であっても出版されにくく、その知見が検証される機会自体が減るということだ。こうした空虚な事実は注目を集められず、机の引き出しの片隅で永遠に忘れ去られ、気づかぬうちに知識のバイアスを被ることになる。
pハッキングはファイルドロワー効果よりも研究倫理に近い問題で、データが完全に捏造されるわけではないが統計的に有意だと主張できる程度にいくつかのデータポイントを追加/削除したり条件を変えたりして研究結果を歪める行為を指す。ここまで聞くと「完全に捏造するのと少しだけ変えるのと何が違うのか。結局操作したことに変わりはないだろう」と反発したくなるかもしれないが、実際にはそれほど単純ではない。最終的に同じ数値を得たとしても、その手順やマインドによって理解されうる行為とそうでない行為があることもある。
…根本的に統計的な仮説検定における有意確率、すなわち p値は多くの誤解を招く概念である。p値は小さいほど帰無仮説を棄却する力が強いのではなく、単に有意水準 $\alpha$ 以下に下がるかどうかという単純なしきい値(スレッショルディング)として解釈される。個人的には学部生時代に教授からpハッキングという概念を聞いて、当然あり得るだろうと考えた。当時、自分は統計学全般に付きまとう違和感――このような方法でデータを理解してよいのかという疑念――を拭えなかったが、自分が懸念していた統計学の弱点が実際に学界で指摘されているのを見たのである。
なぜ起きるのか
ここから、研究者が意識的であれ無意識的であれpハッキングの誘惑に陥るいくつかのシナリオを想像してみる。これらの架空の逸話はpハッキングを擁護するためのものではなく、pハッキングがどのようにして起き得るかの理解を助けるためのものだ。そして擁護しているのではないと念押ししたにもかかわらず、研究を経験した者ならば想像上の研究者の立場に共感するかもしれない。
5.1%
まず統計全般で多用される有意水準 $\alpha = 0.05$ は特別な根拠なしに広く用いられる慣行に過ぎない。実際には分野やデータの特性に応じてさまざまな $\alpha$ が使われ得る。たとえば天文学や物理学、コンピュータサイエンスなどでは対数スケールに達するほど非常に小さな $\alpha \approx 0$、医学や生物学のように生体を扱う分野では $\alpha = 0.05$、心理学や社会科学のレベルになれば $\alpha = 0.1$ が使われてもおかしくない。しかしそれにもかかわらず、教科書をはじめ多くの統計学資料で $\alpha = 0.05$ が基本とされており、研究者もこの慣行に慣れている。
我々の想像上のある科学者Xは31回もの骨の折れる実験を終えて統計解析を終えた。これで全ての試薬を使い尽くし、実験に注いだ時間と労力も莫大だった。解析結果で確認したp値は0.051で、事実上彼の仮説が正しいことを示しており研究は成功だった。しかし論文にするとなるとやはりp値が0.05以下であってほしいという思いが湧いた。彼は統計学を十分に理解しており $\alpha = 0.05$ という慣行が無意味であることを知っていたが、論文を読む読者はそうは考えないだろうし、もしかすると査読者もそうだろう。
彼は金と名誉に目がくらんでデータを完全に捏造する一部の学者を心底軽蔑しており、自分は研究倫理を守る者だと考えている。そしてここから、Xはいくつかの状況に直面する。この人の行動が正しいか誤っているか考えてみよう。
A. 除外
Xは最後の実験に注目した。今しがた実験を終えたばかりで記憶が鮮明で、まだ研究ノートには記録していなかった。念のため最後の実験結果を除外して30個のデータポイントのみで解析してみると、p値が5%以下に下がるという理想的な結果が得られた。
彼は30回目の実験が終わった時点でそのことが分かっていたら、31回目をわざわざ行わなかっただろうと考えた。31回目の実験は事実上不要である上に研究成果の価値を損なう行為だ。単に試薬が惜しくて最後までやっただけなのに、これをわざわざ追加する理由があるだろうか。過去に戻って31回目を行わないことと、現在31回目のデータを除外することは結果的に同じだ。さらに、30程度あれば通常標本として受け入れられるため一つ抜けたところで標本サイズを指摘されることはないだろう。彼は最後のデータを除いて論文を投稿し、後にこの論文は高く評価されて教授になった。
Xは門下生に対してやたら実験を多く行うことが能ではなく、常に考えよと助言する。どう思うか?
B. 追加
Xはもう少し手を加えればより良い結果が得られる気がした。彼は上司に電話してあの貴重で高価な試薬を追加で購入してくれるよう頼んだ。一か月後試薬が届き、32回目の実験でp値が5.02%と出たのを見て「もう少し、もう少し」でより完璧な結果が得られるだろうと考えた。
彼は全力を注ぎ、睡眠時間を削ってまで実験に没頭した。そして35回目の実験が終わったとき、p値が4.98%と辛うじて棄却領域に入るのを確認した。諦めずに努力したからより良い結果が得られたのだ。やはり研究者には粘り強さが重要だ。まだ試薬は残っているが、この程度で標本サイズは十分だ。彼はこの結果をまとめて論文を投稿し、後にこの論文は高く評価され教授になった。
Xは折に触れて門下生にこの時の逸話を話し、努力の価値を強調する。どう思うか?
C. 外れ値
Xは改めて自分のデータを精査し始めた。腕利きの専門家である彼はめったにミスをしないが、むしろ専門家であるがゆえに自己検証も行う。彼は14回目の実験で得られた値が外れ値に見えることに気づき、研究ノートを探すとその日の実験で些細なトラブルがあったという記録を実際に見つけた。
彼はこの外れ値を除外して解析することが研究倫理に反するか考えたが、率直に言ってそのトラブルを知らなければともかく、変数が適切に制御されていなかったと知っている以上、この実験は破棄するのが正しい。この判断は元の解析でp値が0.05未満であったとしても同じだっただろう。科学者として当然の行為である。もちろん元々そうであればわざわざデータを見直す必要もなかったが、とにかく彼はこの外れ値を除いて再解析し、有意水準5%以下の解析結果を得た。彼は外れ値を除いて論文を投稿し、後にこの論文は高く評価され教授になった。
Xは門下生がミスしたときにデータを鵜呑みにせず批判的思考を持てと教える。どう思うか?
Ioannidis, J. P. (2005). Why most published research findings are false. PLoS medicine, 2(8), e124. https://doi.org/10.1371/journal.pmed.0020124 ↩︎
Head, M. L., Holman, L., Lanfear, R., Kahn, A. T., & Jennions, M. D. (2015). The extent and consequences of p-hacking in science. PLoS biology, 13(3), e1002106. https://doi.org/10.1371/journal.pbio.1002106 ↩︎
