독립변수 xi 와 종속변수 yi 가 선형 관계를 가진다는 말은 어떤 a,b 에 대해 yi=axi+b 로 나타낼 수 있다는 것이다. 물론 실제 데이터에 대해서는 오차가 있을수밖에 없으므로, 정확하게는 오차항을 포함해 yi=axi+b+εi 이 된다. 이제 표현을 회귀분석에 자주 쓰는 모양으로 고쳐보면
yi=β0+β1xi+εi계획행렬로 나타내면
y1y2⋮yn=11⋮1x1x2⋮xn[β0β1]+ε1ε2⋮εn
이고, 정리하면 Y=Xβ+ε 을 얻는다.
최적화
이는 최소제곱법을 통해 ∥ε∥2=∥Y−Xβ∥2 가 최소가 되도록 하는 β=[β0β1] 을 찾는 문제로 귀결된다. β 는 직선의 절편과 기울기를 나타내므로, β 를 찾는 것은 데이터를 선형 관계로 설명해줄 직선 중 가장 오차가 작은 것을 찾는 것이다. 물론 우리는 두 변수가 정확히 어떤 관계를 갖고 있는지는 알 수 없으므로 우리는 회귀계수의 추정치β0^ 과 β1^ 을 찾아야한다. 쉽게 말해 데이터랑 제일 비슷하게 생긴 직선을 그으면 된다.
보통 이런 문제는 수치선형대수의 툴을 사용해서 푸는 게 일반적이지만, 단순회귀분석은 간단한 미적분학으로도 풀 수 있다. 행렬을 다시 헤쳐서 나타내보면
ε2=i=1∑n(yi−β0−β1xi)2
를 가장 작게 만드는 β0=β0^ 와 β1=β1^ 을 찾는 것이다.식 (1) 에서 β0 에 대해 편미분을 취해보면
∂β0∂ε2=−2i=1∑n(yi−β0−β1xi)ε2 이 가장 작아지려면
nβ0=i=1∑nyi−β1i=1∑nxi
따라서 ε2 은 β0=y−β1x 일 때 가장 작아진다.식 (1) 에서 β1 에 대해 편미분을 취해보면
∂β1∂ε2=−2i=1∑nxi(yi−β0−β1xi)ε2 이 가장 작아지려면 β0=y−β1x 이므로
i=1∑nxi(yi−y+β1x−β1xi)=0
다시 말해,
β1i=1∑n(xi2−xxi)=i=1∑nxiyi−i=1∑nxiy
이다. 정리하면
β1====∑i=1n(xi2−xxi)∑i=1nxiyi−∑i=1nxiy∑i=1n(xi2−x2)∑i=1n(xi−x)(yi−y)Var(X)Cov(X,Y)Cor(X,Y)sxsy
실제 계산을 한다면 β1^ 보다는 β0^ 을 먼저 구해야 할 것이다.