logo

デザイン行列 📂統計的分析

デザイン行列

ビルドアップ

R内蔵データ faithful を読み込みhead()関数で確認してみよう。

20180426\_214849.png

たった六つだけど、一見すると、eruptionswaitingは正の相関関係を持っているように見える。これらの関係を何らかの二つの定数β0,β1\beta_{0}, \beta_{1}について (eruptions)=β0+β1(waiting) \text{(eruptions)} = \beta_{0} + \beta_{1} \cdot \text{(waiting) } と表すことができればいい。上の式は二変数の線形関係を直線の方程式として表したもので、β0\beta_{0}は定数項、β1\beta_{1}は傾きを意味する。

しかし、実際のデータでは、理論と異なり誤差が生じるため、何らかの誤差項ε\varepsilonが必要だ。式を簡単にするためにy:=(eruptions)y:=\text{(eruptions)}及びx:=(waiting) x:=\text{(waiting) }とすると、次を得る。 y=β0+β1x+εy = \beta_{0} + \beta_{1} x + \varepsilon

上のスクリーンショットでは、合計66組の順序対が表示されているが、これらを連立方程式で表すと次のようになる。

{3.600=β0+β179+ε11.800=β0+β154+ε23.333=β0+β174+ε32.283=β0+β162+ε44.533=β0+β185+ε52.883=β0+β155+ε6 \begin{cases} 3.600 = \beta_{0} + \beta_{1} 79 + \varepsilon_{1} \\ 1.800 = \beta_{0} + \beta_{1} 54 + \varepsilon_{2} \\ 3.333 = \beta_{0} + \beta_{1} 74 + \varepsilon_{3} \\ 2.283 = \beta_{0} + \beta_{1} 62 + \varepsilon_{4} \\ 4.533 = \beta_{0} + \beta_{1} 85 + \varepsilon_{5} \\ 2.883 = \beta_{0} + \beta_{1} 55 + \varepsilon_{6} \end{cases}

実際にfaithfulは、272組の順序対を含んでいるので、このように全てを表現するのは非現実的だが、再び記号を通して表現してみよう。

{y1=β0+β1x1+ε1y2=β0+β1x2+ε2y272=β0+β1x272+ε272 \begin{cases} y_{1} &= \beta_{0} + \beta_{1} x_{1} + \varepsilon_{1} \\ y_{2} &= \beta_{0} + \beta_{1} x_{2} + \varepsilon_{2} \\ &\vdots& \\ y_{272} &= \beta_{0} + \beta_{1} x_{272} + \varepsilon_{272} \end{cases}

一方、このような連立方程式は行列方程式としてよりシンプルに表現できる。 [y1y2y272]=[1x11x21x272][β0β1]+[ε1ε2ε272] \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{272} \end{bmatrix} = \begin{bmatrix} 1 & x_{1} \\ 1 & x_{2} \\ \vdots & \vdots \\ 1 & x_{272} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{272} \end{bmatrix} 通常通り、行列まで大文字で表記すると、ついにY=Xβ+εY = X \beta + \varepsilonを得ることができる。

定義

ここでは、XXのように独立変数をまとめた行列設計行列design matrixと呼ぶ。

先修科目

このようにデータを行列で表現できることは、線形代数の様々なツールを統計学に適用できることを意味する。ここでβ\betaを見つけることがまさに回帰分析であり、これを正確に理解するには、線形代数の知識が不可欠だ。

統計学に接近する多くの学習者が線形代数の必要性を感じずに軽視してしまい、行列が出てくると苦労する。先輩たちの轍を踏まないためにも、解析学や線形代数のような低学年科目を徹底的に磨き上げることが重要だ。