회귀분석이란?

회귀분석이란?

Regression Analysis

설명

20190905\_104344.png

회귀분석은 거의 모든 통계적 기법의 근간이 되는만큼 너무 일반적이거나 너무 특수하게 설명된 경우가 많다. 그냥 회귀분석이 어떤건지 궁금한 사람에게 한마디로 설명한다면 변수 사이의 관계를 알아내는 방법이라고 할 수 있겠다.

이 유용하고도 놀라운 분석법은 우생학을 만들어낸 프랜시스 골턴Francis Galton의 아이디어에서 태어났다.

골턴은 유전학을 연구하던 중 아버지와 아들의 키에 대한 데이터를 접하게 되었는데, 대체로 아버지가 크면 아들도 크고 아버지가 작으면 아들도 작은 경향이 있어보였다. 이러한 관계 자체는 그 전부터 모든 사람들이 알고 있는 것이었지만, 골턴은 세대가 지나면서 그것이 전체의 평균으로 회귀Regress하는 현상에 주목했다.

키가 큰 아버지의 아들도 키가 크긴 하지만 아버지보단 작아지는 경향이 있고, 키가 작은 아버지의 아들도 키가 작긴 하지만 아버지보단 커지는 경향이 있었던 것이다. 이는 상식적으로 생각해보면 당연한 것으로, 만약 그렇지 않았다면 세대가 지남에 따라 키가 무한대로 발산하거나 $0$으로 수렴해버렸을 것이다.

한편 꼭 평균으로 회귀하는 것만은 아닌 것이, 성장 환경이나 돌연변이처럼 어쩔 수 없이 생기는 오차가 있기 때문이다. 그럼에도 불구하고 뚜렷하게 나타나는 선형관계는 골턴으로 하여금 ‘키는 타고나는 것’임을 확신하게 했을 것이다.

그렇다면 정확하게는 아니라도, 어느정도의 오차는 있더라도 아버지의 키만 보고 아들의 키를 대강 맞출 수 있지는 않을까? 만약 부모의 키 $x$ 와 아들의 키 $y$ 가 $y = a + b x$ 와 같은 관계를 가진다면, $x$ 에 아버지의 키를 대입함으로써 아들의 키를 추측하는 것이다. 물론 이렇게 정확하게 맞아떨어지진 않겠지만, 평균적으로는 얼추 맞아 떨어질 것이다.

이렇게 나온 게 바로 회귀분석이다. 물론 지금에 와서는 회귀분석이 엄청나게 다양한 분야에 응용되고 있고 세대가 지난다는 식의 말도 필요 없으므로 ‘회귀’라는 말은 그 의미를 잃었다. 그냥 어원이 그랬구나 하고 넘어가도 상관 없다.

댓글