통계학에서의 자유도 📂데이터과학

통계학에서의 자유도

용어

어떤 통계량을 산출할 때 그 값을 바꿀 수 있는 독립적인 데이터의 수를 자유도^{degree of freedom}라 한다¹.

설명

자유도를 설명하기 어려운 이유

신입생이 되어 통계학을 공부 해보면 이 ‘자유도’라는 게 뭔지 참 짜증이 난다. 일단 어려운데다 자주 나오는 건 둘째치고, 도대체가, 어떤 교재에서도 그 정의를 명확하게 하는 걸 볼 수가 없기 때문이다. 이 포스트 역시 구체적으로 자유도를 정의하지 않고 그냥 ‘용어’라고만 소개하며, 그 말 자체도 ‘산출할 때’나 ‘값을 바꿀 수 있는’ 등 엄밀한 수학적 진술이라고 볼 수 없는 표현들을 사용하고 있다.

문제는 그럴만 하다는 것이다. 다들 귀찮아서 그냥 넘어가는 게 아니라, 진짜 자유도라는 개념 자체가 공부해서 ‘이해’하는 것보다는 경험이 쌓이면서 ‘체득’되는 느낌이 강하다. 2~3학년쯤 되면 이제 자유도가 뭔지 대충 감이 오고, 대학원에 갈 때쯤 되면 보통 그게 뭔지 설명도 곧잘 하지만 정의를 읊는 것은 역시 어렵다.

우선 자유도라는 표현 자체가 주는 ‘좋은 감정’부터가 문제다. 그것이 패션이든, 오픈월드 게임이든, 민주주의든 자유도란 높을수록, 클수록 좋은 양으로 간주된다. 심지어 신입생이 되어 처음으로 접하는 자유도는 흔히 ‘표본의 수가 $n$이니까 거기서 $1$을 뺀 $(n-1)$ 만큼의 자유도를 갖는다’는 식으로 계산된다. 깊은 고찰 없이 들어보면 표본의 수 역시 적은 것보다는 많은 게 좋을법 하니 통계학에서의 자유도마저 뭔가 ‘좋고 나쁨을 가지는 수’라는 인식을 가질 수 있다. 그러나 정확히 수식으로써 그들을 다루고 탐구하는 맥락에서 자유도는 단지 어떤 수일 뿐이다.

또 아무 맥락이나 너무 뜬금 없이, 심지어 자주 등장한다는 것도 문제다. 분산분석^ANOVA이나 회귀분석을 배워보면 갑자기 $n-1$ 이니 $n-p-1$ 이니하는 ‘어떻게 계산된건지 설명이 너무 부족한’ 자유도들이 쏟아진다. 그러다 수리통계학을 배우는데, 이젠 갑자기 t-분포니 카이제곱분포니 하는 것들의 모수를 자유도란다. 심지어 F-분포는 자유도가 두개라고 하는데, 그것들의 의미가 뭔지 정확히 짚고 넘어가지 않아서 찝찝한 와중에 왠지 또 그냥저냥 알 것도 같은 신기한 기분을 느낄 수 있다. 이 때가 보통 2~3학년인데, 이제와서 자유도에 대해 굳이 질문하기도 민망한 동시에 새까맣게 모르는 정도는 아니라서 얼레벌레 넘어가게 되는 게 보통이다.

실제 그 숫자들이 필요한 건 이해한다 치더라도 그들을 ‘자유도’라 부르는 것은 일견 무의미해 보이기까지 한다. 그렇다면 이제 왜 자유도라는 단어가 필요한지에 공감해보자.

극단적인 예시: 자유도라는 개념이 없다면?

어떤 쓸모없어 보이는 개념을 설명할 때 좋은 방법 중 하나는 그 개념이 없을 때 어떤 ‘반칙’이 허용되는가를 설명하는 것이다. 수식적으로 통계량이 어떻니 뭐니 하는 설명은 제쳐두고 그냥 재미있는 상상 하나를 해보자. 다음과 같은 샘플 $A$ 가 주어져 있다고 하자. $$ A = \left\{ 13, 7, 17, 3 \right\} $$ 이 경우 표본의 수는 $n = 4$ 다. 그런데 후배녀석이 자기가 샘플을 ‘발전’ 시켰다면서 가져온 샘플 $B$ 를 보자. $$ B = \left\{ 13, 7, 17, 3 , 14, 8, 18, 4 \right\} $$ 후배는 이 샘플의 수가 $8$개며, $A$ 에 비해서 무려 두배나 많다고 했다. 여기서 그치지 않고 ‘자신은 원하는만큼 샘플을 늘릴 수 있으며 $n \to \infty$ 수준으로 반복이 가능하니 대표본에서 사용할 수 있는 모든 통계기법을 적용할 수 있을 것’이라 주장한다. 그러나 한 눈에 보아도 이 샘플은 정교하지 않게 위조된 것이며, 그 방법은 단지 기존에 있던 데이터들에 $1$ 을 더해서 표본의 수만 늘렸을 뿐이다.

이 때 우리는 우리도 모르게 후배가 숫자로 현혹 시키는 $B$ 에 속지 않고 그 본질인 $A$ 에 집중했다는 사실을 깨달아야 한다. 후배의 생성한 데이터는 $A$ 의 모조품 $$ B = B(A) = A \cup (A+1) $$ 에 불과함을 알고 있다. 표본의 볼륨은 단순히 그 숫자가 아니라 실질적으로 우리가 통제할 수 없는, 자연스러운―달리 말해 ‘자유로운’ 표본의 수로 세는 게 타당하며 그렇게 ‘반칙’이 통하지 않는 수를 자유도라 부르는 것이다.

보고 또 보는 예시: $s^{2}$

이제 자유도를 설명하는 어떤 문헌을 보든 꼭 예시로 나오는 표본분산 $s^{2}$ 을 생각해보자. 표본분산은 표본평균 $\overline{x}$ 가 주어져 있을 때 다음과 같이 계산된다. $$ s^{2} = {{ 1 } \over { n-1 }} \sum_{k=1}^{n} \left( x_{k} - \overline{x} \right)^{2} $$ 여기서 중요한 건 이미 상수 $\overline{x} = \sum_{k} x_{k} / n$ 이 주어져 있다는 것이다. 어떤 $x_{k_{0}}$ 를 고르든 그 $x_{k_{0}}$ 는 그 외의 데이터에 의존하는 함수꼴 $$ x_{k_{0}} = x_{k_{0}} \left( \left\{ x_{k} : k \ne k_{0} \right\} \right) = n \overline{x} - \sum_{k \ne k_{0}} x_{k} $$ 으로 역산할 수 있다. 이는 윗문단에서 후배의 데이터가 $B = B(A)$ 꼴로 나타난 것과 비슷하다. 이 때 진정한 의미에서 $s^{2}$ 를 계산하기 위해 필요한 표본의 수는 $n$개가 아니라 $(n-1)$개가 되며, $x_{k_{0}}$ 만 고정되어 있다면 $(n-1)$개의 표본 $\left\{ x_{k} : k \ne k_{0} \right\}$ 는 $\overline{x}$ 의 값이 유지되는 제약조건 하에서 산출되는 $s^{2}$ 의 값을 얼마든지 바꿀 수 있으므로 $(n-1)$을 $s^{2}$ 의 자유도라 부르는 것이다.

같이보기

표본 분산을 n-1으로 나누는 이유

http://www.animatedsoftware.com/statglos/sgdegree.htm ↩︎