仮説検定の簡単な定義
定義 1 2
科学で母集団についてのある推測を統計的仮説と言い、仮説を採用または棄却する統計的意思決定プロセスを統計的仮説検定testing of statistical hypothesisという。この過程には2つの競合する仮説があり、主に研究者が支持したい仮説を対立仮説alternative hypothesis $H_{1}$ と言い、それに反して対立仮説が真である確かな根拠がない場合に受け入れる仮説を帰無仮説null hypothesis $H_{0}$ と言う。仮説検定のための統計量を検定統計量test statisticと言う。
説明
もしお前が統計学を専攻するなら、帰無仮説 $H_{0}$ vs 対立仮説 $H_{1}$ … という永遠に繰り返される戦いに直面するだろう。最初はすごく難しそうに見えるけど、知っていくうちに愛憎交じりあう感情が出てくるから、怖がらずに理解してみよう。
教科書に出てくる難しい数学の話(棄却域、検定統計量、有意水準等)は一時的に置いておいて、日常的な状況で仮説検定がどのように生じ得るかを想像してみよう。例えば、架空の製薬会社Aが肝機能に役立つ、具体的には一つの肝数値であるASTを下げる新薬aを発売する場面を考えてみよう:
- aが市販化されるためには、食品医薬品局のような機関のあるテストをパスしなければならず、その場合は当然aがASTを下げることを証明しなければならない。もちろんその方法は「実際にASTが下がった人を10人以上連れてくる」ような手探りではなく、統計的に意味があるべきだ。
- 100人の中で10人以上、または「全体の臨床試験参加者の10%以上」が超えるのはどうだろうか?先ほどよりは合理的だが、単純に11〜40が正常なAST数値を500から490程度に下げたとしても、効果があったと見なすかどうかは問題があるかもしれない。
- 一つの方法はaを継続的に摂取した $1$ グループと摂取していない(プラシーボ)$2$ グループに分けて、それぞれの肝数値の平均を比較することだ。$1$ グループの平均を $\mu_{1}$ 、$2$ グループの平均を $\mu_{2}$ とすると、製薬会社Aが望む結果はおそらく次のようになるだろう。 $$ \mu_{1} < \mu_{2} $$ 上で紹介された定義に従って、対立仮説は次のように定められる。 $$ H_{1}: \mu_{1} < \mu_{2} $$
- 式だけを見てもまだ500と490のレベルを比較する問題はあるように見えるが、今は一人や二人の個人ではなく、標本集団という統計について話している。例えば同じく500 vs 490でも分散が200だとしたら、それはたまたまの偶然かもしれない。しかし、分散が2程度に小さいなら、新薬aは明らかにASTを下げたと見える。[ 注:二つの集団の平均を比較するためにその分散を使うアイデアはかなり使えそうだ。それを発展させたのがまさに分散分析ANOVAである。 ]
- しかしとりあえず仮説検定に戻ってみよう。対立仮説がこのように定められたら、帰無仮説は次のような反対の内容になるかもしれない。
$$
H_{0}: \mu_{1} \ge \mu_{2}
$$
ここで重要なのは、帰無仮説が受け入れられる条件が「対立仮説が真である確かな根拠がない」ということであり、それが帰無仮説自体が積極的に採用されるわけではないということ。帰無仮説が受け入れられるのは、それを棄却できないためであり、それが真実であると証明されたためではない。
- 例えば、探検家コロンブスの対立仮説が「アメリカ大陸は存在する」とした場合、コロンブスが最初の探検でアメリカを見つけられなかったからといって「アメリカ大陸は存在しない」という帰無仮説が真になるわけではない。まだ確かな根拠がないので一旦は「アメリカ大陸は存在しない」と受け入れるだけであり、証拠の欠如が欠如の証拠ではない。
- 幸いにも対立仮説 $H_{1}$ が統計的な根拠によって真であるとしよう。ただし、厳密に言えば、この分析を通じて明らかにされたのは、新薬aを飲んだ集団のASTが低下したということだけに注意が必要だ。臨床医や病理学者ほどのドメインdomain, 分野に対する専門性を持たない分析者が自信を持って言えるのは「どんな理由があれ、新薬の効果は確実に証明された」ということであり、新薬aがどのような原理でASTを下げたかという因果関係までを言及する根拠にはならない。
参照
- 仮説検定の分かりやすい定義:厳密さよりもむしろ手軽に受け入れやすい定義を紹介する。
- 帰無仮説と対立仮説を定める方法:その定義にどんな問題があるかを説明する。
- 仮説検定の難しい定義:比較的厳密な数理統計的定義を紹介する。