logo

統計学における自由度 📂データサイエンス

統計学における自由度

用語

ある統計量を計算する際、その値を変えることができる独立したデータの数を自由度degree of Freedomと呼ぶ1

説明

自由度を説明するのが難しい理由

新入生になって統計学を勉強してみると、この「自由度」というのがなんなのか、本当に腹が立つ。まず難しいし、頻繁に出てくるのを置いておいて、どの教科書でもその定義をはっきりさせることができないからだ。このポストも具体的に自由度を定義していないし、ただ「用語」として紹介しているだけで、「計算する時」とか「値を変えることができる」など、厳密な数学的な表現とは言えない表現を使っている。

問題は、それが理解できるということだ。みんなが面倒くさがっているわけではなく、実際の自由度という概念自体が勉強して「理解する」よりも、経験が積み重なるうちに「体得」する感じが強いからだ。2〜3年生くらいになると、自由度が何なのか大体の感じがつかめてきて、大学院に行く頃には普通に説明もそこそこできるが、定義を暗誦することはやはり難しい。

まず自由度という表現自体が与える「良い感情」が問題だ。それがファッションであれ、オープンワールドゲームであれ、民主主義であれ、自由度は高いほど、大きいほど良いものと考えられている。さらに新入生が最初に接する自由度は、通常「サンプルの数が$n$だから、そこから$1$を引いた$(n-1)$だけの自由度を持つ」というように計算される。深く考えずに聞いてみれば、サンプルの数も少ないより多い方が良さそうだから、統計学の自由度さえも何か「良し悪しを持つ数値」という認識を持たれるかもしれない。しかし、正確に数式で扱い、探求する文脈で、自由度は単なる数値に過ぎない。

また、どんな文脈でもなく、あまりにも突然、さらには頻繁に登場するのも問題だ。分散分析ANOVA回帰分析を学ぼうとすると、突然$n-1$だとか$n-p-1$だとか、「どう計算されたかの説明があまりにも不足している」自由度がわんさか出てくる。その上で数理統計学を学んでいると、今度は突然t-分布カイ二乗分布などが自由度だと言い出す。更にF-分布には自由度が二つあるとか言われるが、その意味が正確には把握されずに、なんだか知っているような不思議な気持ちになれる。これが大体2〜3年生の時なんだけど、この頃になって自由度についてわざわざ質問するのも恥ずかしいし、全く知らないわけではないから、なんとなく乗り切ってしまうのが普通だ。

実際にそれらの数字が必要だと理解することは置いておいても、「自由度」と呼ぶこと自体が一見無意味に見えるまである。それでは、なぜ自由度という言葉が必要かに共感してみよう。

極端な例:自由度という概念がなかったら?

ある役に立たなそうな概念を説明する際の良い方法の一つは、その概念がなかった場合にどのような「反則」が許されるかを説明することだ。統計量がどうのこうのという数式的な説明は置いておいて、ただ面白い想像をしてみよう。次のようなサンプル$A$が与えられたとしよう。 $$ A = \left\{ 13, 7, 17, 3 \right\} $$ この場合、サンプルの数は$n = 4$だ。しかし、後輩が自分がサンプルを「発展」させたと言って持ってきたサンプル$B$を見てみよう。 $$ B = \left\{ 13, 7, 17, 3 , 14, 8, 18, 4 \right\} $$ 後輩はこのサンプルの数が$8$個で、$A$に比べてなんと二倍も多いと言った。ここで止まらず、「自分は好きなだけサンプルを増やせるし、$n \to \infty$レベルまで繰り返し可能だから、大きなサンプルで使える全ての統計手法を適用できる」と主張する。しかし、一目見てもこのサンプルは粗雑に偽造されたもので、その方法は単に既存のデータに$1$を足してサンプルの数を増やしただけだ。