回帰分析とは?
説明
回帰分析は、ほぼすべての統計的手法の基礎となっているため、一般的すぎるか特殊すぎる説明が多い。回帰分析が何かを一言で説明するなら、変数間の関係を見つける方法と言えるだろう。
この便利で驚くべき分析方法は、優生学の父フランシス・ゴルトンfrancis Galtonのアイディアから生まれた。
ゴルトンは遺伝学を研究しているうちに、父とその息子の身長に関するデータに遭遇し、一般的に父が背が高ければ息子も高く、父が背が低ければ息子も低い傾向があることに気付いた。この関係自体は以前から皆が知っていたが、ゴルトンは世代が経つにつれて平均へ回帰regressする現象に注目した。
背の高い父の息子も背が高いが、父よりは低くなる傾向があり、背の低い父の息子も背が低いが、父よりは高くなる傾向があった。論理的に考えれば当然のことで、そうでなければ世代を重ねるごとに身長が無限に発散したり$0$に収束してしまうだろう。
一方で、必ず平均へ回帰するわけではない。成長環境や突然変異のように避けられない誤差が生じるためだ。それにもかかわらず、明らかに現れる線形関係は、ゴルトンに「身長は遺伝する」という確信を与えたに違いない。
では、正確ではなくとも、ある程度の誤差はあるが、父の身長だけを見て息子の身長をだいたい当てることはできないだろうか?父の身長$x$と息子の身長$y$が$y = a + b x$のような関係にあるなら、$x$に父の身長を代入することで、息子の身長を推測することになる。もちろん、完全に一致するわけではないが、平均的にはだいたい合うだろう。
これが回帰分析の起こりだ。もちろん、今では回帰分析は非常に多岐にわたる分野に応用されており、世代が変わるといった話はもはや不要であるため、「回帰」という言葉はその意味を失った。語源を理解して、それでいい。