Y=β0+β1X1+⋯+βpXp+ε다중회귀분석에서 주어진 p 개의 독립변수 X1,⋯,Xp 에 대해 위와 같은 선형모델linear model을 세울 때, β0,β1,⋯,βp 를 회귀계수regression Coefficient라 한다. Y 는 종속변수, ε 은 랜덤하게 분포된 에러를 의미한다.
공식
y1y2⋮yn=11⋮1x11x12⋮x1n⋯⋯⋱⋯xp1xp2⋮xpnβ0β1⋮βp+ε1ε2⋮εnn 개의 데이터가 주어져 있고 p<n 이라고 할 때 선형다중회귀모델을 계획행렬로 나타내면 위와 같고, 간단히 Y=Xβ+ε 라 나타내자. β 에 대해 최소제곱인 추정량 벡터β^ 는 다음과 같다.
β^=β^0β^1⋮β^p=(XTX)−1XTY
그뿐만 아니라, β^ 는 β 의 최선불편추정량이어서 최선선형불편추정량Best Linear Unbiased Estimator, BLUE이라 부르기도 한다.
우리의 목표는
∥ε∥22=k=0∑nεk=[ε0ε1⋯εn]ε0ε1⋮εn=εTε
을 최소화하는 것이다. ε=Y−Xβ 이므로 εTε=(Y−Xβ)T(Y−Xβ) 을 최소화하는 β 를 찾으면 된다.
잔차제곱합의 그래디언트:
f(s):=(y−Xs)TR(y−Xs)
라고 하자. R 이 항등행렬이면 다음을 얻는다.
∂s∂f(s)=−2XT(y−Xs)
양변을 β 로 편미분한
∂β∂εTε===−2XT(Y−Xβ)−2XT(Y−Xβ)−2XTY+2XTXβ
가 영벡터0 이 되게끔 하는 β^ 는 다음의 꼴이 된다.
β^=βargminεTε=(XTX)−1XTY
한편 β^ 는 β 에 대한 불편추정량임을 쉽게 보일 수 있고, 최소제곱법을 통해 유도되었으므로 이보다 분산이 작은 β 의 불편추정량은 존재하지 않아 최선불편추정량이다.
■
만약 유도과정에서 β 로 미분하는 부분이 별로 마음에 들지 않는다면 행렬대수로 접근하는 대안도 있다. 행렬대수에서의 최소제곱법에서
X∗Y=X∗Xβ^
를 만족하는 β^ 이 최소제곱해가 된다는 점에서, X∈Rn×p 이므로 X∗=XT 이고 결론적으로 β^=(XTX)−1XTY 을 얻는다.
따름정리
β^ 가 최선선형불편추정량이면 yk 의 합과 적합치 y^k=1=β^0+∑j=1pβ^jxj 의 합은 같다:
k=1∑nyk=k=1∑ny^k
증명
본 공식의 증명에서 β^ 가 최선선형불편추정량이라는 것은,
⟹⟹0=−2XTY+2XTXβ^0=XT(Y−Xβ^)0=XTy1−y^1⋮yn−y^n
이 성립한다는 것이다. X 가 계획행렬이므로 XT 의 첫번째 행은 모든 성분이 1 인 1행렬으로 볼 수 있다. XT 의 첫번째 행과 Y−Xβ^ 의 곱만 살펴보면 다음과 같다.
⟹⟹0=[1⋯1]y1−y^1⋮yn−y^n0=(y1−y^1)+⋯+(yn−y^n)0=k=1∑nyk−k=1∑ny^k
결과적으로, 다음을 얻는다.
k=1∑nyk=k=1∑ny^k