デザイン行列
📂統計的分析デザイン行列
ビルドアップ
Rで内蔵データ faithful
を読み込み、head()
関数で確認してみよう。

たった六つだけど、一見すると、eruptions
とwaiting
は正の相関関係を持っているように見える。これらの関係を何らかの二つの定数β0,β1について
(eruptions)=β0+β1⋅(waiting)
と表すことができればいい。上の式は二変数の線形関係を直線の方程式として表したもので、β0は定数項、β1は傾きを意味する。
しかし、実際のデータでは、理論と異なり誤差が生じるため、何らかの誤差項εが必要だ。式を簡単にするためにy:=(eruptions)及びx:=(waiting) とすると、次を得る。
y=β0+β1x+ε
上のスクリーンショットでは、合計6組の順序対が表示されているが、これらを連立方程式で表すと次のようになる。
⎩⎨⎧3.600=β0+β179+ε11.800=β0+β154+ε23.333=β0+β174+ε32.283=β0+β162+ε44.533=β0+β185+ε52.883=β0+β155+ε6
実際にfaithful
は、272組の順序対を含んでいるので、このように全てを表現するのは非現実的だが、再び記号を通して表現してみよう。
⎩⎨⎧y1y2y272=β0+β1x1+ε1=β0+β1x2+ε2⋮=β0+β1x272+ε272
一方、このような連立方程式は行列方程式としてよりシンプルに表現できる。
y1y2⋮y272=11⋮1x1x2⋮x272[β0β1]+ε1ε2⋮ε272
通常通り、行列まで大文字で表記すると、ついにY=Xβ+εを得ることができる。
定義
ここでは、Xのように独立変数をまとめた行列を設計行列design matrixと呼ぶ。
先修科目
このようにデータを行列で表現できることは、線形代数の様々なツールを統計学に適用できることを意味する。ここでβを見つけることがまさに回帰分析であり、これを正確に理解するには、線形代数の知識が不可欠だ。
統計学に接近する多くの学習者が線形代数の必要性を感じずに軽視してしまい、行列が出てくると苦労する。先輩たちの轍を踏まないためにも、解析学や線形代数のような低学年科目を徹底的に磨き上げることが重要だ。