회귀계수의 F-검정
📂통계적검정회귀계수의 F-검정
가설검정
선형다중회귀모델의 모형진단에서 잔차가 선형성과 등분산성과 독립성과 정규성을 만족시킨다고 하자. n 개의 관측치와 p 개의 독립변수에 대한 다중회귀분석에 대한 가설검정은 다음과 같다.
- H0: β1=β2=⋯=βp=0 즉, 모든 독립변수가 종속변수과 상관관계를 가지지 않는다.
- H1: β1,β2,⋯,βp 중 적어도 하나는 0 이 아니다. 즉, 유의한 상관관계를 가지는 독립변수가 적어도 하나 존재한다.
유도
SST, SSR, SSE:
6. TSS(Total Sum of Squares) 혹은 SST(Sum of Squares Total):
TSS=SST:=i=1∑n(yi−y)2
7. ESS(Explained Sum of Squares) 혹은 SSR(Sum of Squares due to Regression):
ESS=SSR:=i=1∑n(y^i−y)2
8. RSS(Residual Sum of Squares) 혹은 SSE(Sum of squared Error):
RSS=SSE:=i=1∑n(yi−y^i)2
SST는 평균 하나를 사용했으므로 자유도가 (n−1) 이고 SSE는 p개의 독립변수에 따라 계산되므로 상수항을 포함해 (p+1)개의 회귀계수가 사용되어 자유도가 (n−(p−1)) 이다. 이들은 잔차의 등분산성과 독립성, 정규성에 따라 σ2 로 나누었을 때 각각의 자유도를 가지는 카이제곱분포를 따른다. 한편
SST=SSR+SSE⟺SSR=SST−SSE
이므로 SSR 의 자유도는 p=(n−1)−(n−p−1) 이고, 카이제곱분포 χ2(p) 를 따른다.
F-분포의 유도: 두 확률 변수 U,V 가 독립이고 U∼χ2(r1), V∼χ2(r2) 이라 하면
V/r2U/r1∼F(r1,r2)
검정통계량 F 를
F:=SSE/(n−p−1)SSR/p
과 같이 정의하면 자유도가 (p,n−p−1) 인 F-분포를 따른다.
수식으로 다시 나타내보면 F=SSE/(n−p−1)SSR/p∼F(p,n−p−1) 인데, 이를 이용해 가설검정을 한다.
■
다만 이 F검정은 회귀계수 각각의 t검정을 볼 수 있다면 무의미하고, 진짜 진면목은 모형간의 비교에 있다.통계학에 숙명적으로 따라붙는 ‘주관성’이나 ‘애매함’을 떨쳐내고 통계적으로 의미 있는 결과를 낼 수 있게 되는것이다.(물론 실제 분석에서는 이보다 편리하고 쉬운 통계량을 이용해서 모델을 비교한다.)
축소모형에 대한 가설검정
n 개의 관측치와 p 개의 독립변수에 대한 다중회귀분석에 대해 i=0,1,⋯,p 라고 하자. 이 때의 회귀모형을 전체모형fM이라 하고, FM에서 k 개의 독립변수가 제거된 모형을 축소모형rM이라 한다.
- H0: RM이면 충분하다. 즉, 굳이 많은 변수를 써서 FM을 사용할 필요가 없다.
- H1: RM은 불충분하다. 즉, 변수를 늘려서라도 FM을 쓰는 게 낫다.
F=SSE(FM)/(n−p−1)[SSR(RM)−SSR(FM)]/(p+1−k)
는 자유도가 (p+1−k,n−p−1) 인 F분포를 따른다. 유의수준 α 에서 F≤F(p+1−k,n−p−1;α) 이면 H0 가 채택되어 변수를 줄인 RM을 쓸 수 있게 된다.
같이보기