単純回帰分析
📂統計的分析単純回帰分析
概要
回帰分析は、変数間の関係を見つける方法であって、特に線形関係を明らかにするのに便利だ。単純回帰分析simple Linear regressionは、その中でも一番簡単で、従属変数(反応変数)一つと独立変数(説明変数)一つに関する回帰分析を指す。
モデル

独立変数 xi と従属変数 yi が線形関係にあるというのは、ある a,b に対して yi=axi+b で表せるということだ。もちろん、実際のデータに関しては、誤差が生じるので、正確には誤差項を含めて yi=axi+b+εi になる。これを回帰分析でよく使う形に変えてみると
yi=β0+β1xi+εi
設計行列で表すと
y1y2⋮yn=11⋮1x1x2⋮xn[β0β1]+ε1ε2⋮εn
整理すると Y=Xβ+ε を得る。
最適化
これは 最小二乗法を通して ∥ε∥2=∥Y−Xβ∥2 が最小になる β=[β0β1] を見つける問題になる。β は直線の切片と傾きを表しているので、β を見つけるのは、データを線形的に説明してくれる最も誤差が少ない直線を見つけることだ。もちろん、二変数が厳密にどのような関係を持っているかはわからないので、回帰係数の推定値 β0^ とβ1^ を見つけなければならない。簡単に言えば、データに最も似た直線を引けばいい。
このような問題は普通、数理線形代数のツールを使って解くが、単純回帰分析は単純な微分積分学でも解くことができる。行列を再び分解して表すと
ε2=i=1∑n(yi−β0−β1xi)2
最小にする β0=β0^ とβ1=β1^ を見つけることだ。式 (1) から β0 に関して偏微分を取ると
∂β0∂ε2=−2i=1∑n(yi−β0−β1xi)
ε2 が最小になるためには
nβ0=i=1∑nyi−β1i=1∑nxi
従ってε2 は β0=y−β1x の時、最小になる。式 (1) から β1 に関して偏微分を取ると
∂β1∂ε2=−2i=1∑nxi(yi−β0−β1xi)
ε2 が β0=y−β1x のため最小になるので
i=1∑nxi(yi−y+β1x−β1xi)=0
つまり、
β1i=1∑n(xi2−xxi)=i=1∑nxiyi−i=1∑nxiy
整理すると
β1====∑i=1n(xi2−xxi)∑i=1nxiyi−∑i=1nxiy∑i=1n(xi2−x2)∑i=1n(xi−x)(yi−y)Var(X)Cov(X,Y)Cor(X,Y)sxsy
実際の計算では、β1^ よりも先に β0^ を求めるべきだろう。
参照