logo

회귀계수의 F-검정 📂통계적검정

회귀계수의 F-검정

가설검정

선형다중회귀모델모형진단에서 잔차선형성등분산성독립성정규성을 만족시킨다고 하자. nn 개의 관측치와 pp 개의 독립변수에 대한 다중회귀분석에 대한 가설검정은 다음과 같다.

  • H0H_{0}: β1=β2==βp=0\beta_{1} = \beta_{2} = \cdots = \beta_{p} = 0 즉, 모든 독립변수가 종속변수과 상관관계를 가지지 않는다.
  • H1H_{1}: β1,β2,,βp\beta_{1} , \beta_{2} , \cdots , \beta_{p} 중 적어도 하나는 0 0 이 아니다. 즉, 유의한 상관관계를 가지는 독립변수가 적어도 하나 존재한다.

유도

SST, SSR, SSE: 6. TSS(Total Sum of Squares) 혹은 SST(Sum of Squares Total): TSS=SST:=i=1n(yiy)2 \text{TSS} =\text{SST} := \sum_{i=1}^{n} ( y_{i} - \overline{y} )^2 7. ESS(Explained Sum of Squares) 혹은 SSR(Sum of Squares due to Regression): ESS=SSR:=i=1n(y^iy)2 \text{ESS} = \text{SSR} := \sum_{i=1}^{n} ( \hat{y}_{i} - \overline{y} )^2 8. RSS(Residual Sum of Squares) 혹은 SSE(Sum of squared Error): RSS=SSE:=i=1n(yiy^i)2 \text{RSS} = \text{SSE} := \sum_{i=1}^{n} ( y_{i} - \hat{y}_{i} )^2

SST는 평균 하나를 사용했으므로 자유도(n1)(n-1) 이고 SSE는 pp개의 독립변수에 따라 계산되므로 상수항을 포함해 (p+1)(p+1)개의 회귀계수가 사용되어 자유도가 (n(p1))\left( n-(p-1) \right) 이다. 이들은 잔차의 등분산성과 독립성, 정규성에 따라 σ2\sigma^{2} 로 나누었을 때 각각의 자유도를 가지는 카이제곱분포를 따른다. 한편 SST=SSR+SSE    SSR=SSTSSE SST = SSR + SSE \iff SSR = SST - SSE 이므로 SSRSSR 의 자유도는 p=(n1)(np1)p = (n-1) - (n-p-1) 이고, 카이제곱분포 χ2(p)\chi^{2} (p) 를 따른다.

F-분포의 유도: 두 확률 변수 U,VU,V독립이고 Uχ2(r1)U \sim \chi^{2} ( r_{1}), Vχ2(r2)V \sim \chi^{2} ( r_{2}) 이라 하면 U/r1V/r2F(r1,r2) {{ U / r_{1} } \over { V / r_{2} }} \sim F \left( r_{1} , r_{2} \right)

검정통계량 FFF:=SSR/pSSE/(np1) F := {{ \text{SSR} / p } \over { \text{SSE} / (n-p-1 ) }} 과 같이 정의하면 자유도(p,np1)(p , n-p-1)F-분포를 따른다.

수식으로 다시 나타내보면 F=SSR/pSSE/(np1)F(p,np1)\displaystyle F = {{ \text{SSR} / p } \over { \text{SSE} / (n-p-1 ) }} \sim F(p, n-p-1) 인데, 이를 이용해 가설검정을 한다.

다만 이 F검정은 회귀계수 각각의 t검정을 볼 수 있다면 무의미하고, 진짜 진면목은 모형간의 비교에 있다.통계학에 숙명적으로 따라붙는 ‘주관성’이나 ‘애매함’을 떨쳐내고 통계적으로 의미 있는 결과를 낼 수 있게 되는것이다.(물론 실제 분석에서는 이보다 편리하고 쉬운 통계량을 이용해서 모델을 비교한다.)

축소모형에 대한 가설검정

nn 개의 관측치와 pp 개의 독립변수에 대한 다중회귀분석에 대해 i=0,1,,pi=0,1,\cdots,p 라고 하자. 이 때의 회귀모형을 전체모형fM이라 하고, FM에서 kk 개의 독립변수가 제거된 모형을 축소모형rM이라 한다.

  • H0H_{0}: RM이면 충분하다. 즉, 굳이 많은 변수를 써서 FM을 사용할 필요가 없다.
  • H1H_{1}: RM은 불충분하다. 즉, 변수를 늘려서라도 FM을 쓰는 게 낫다.

F=[SSR(RM)SSR(FM)]/(p+1k)SSE(FM)/(np1) F = {{ [ \text{SSR} (RM) - \text{SSR} (FM) ] / (p +1 - k) } \over { \text{SSE} ( FM ) / (n-p-1 ) }} 자유도(p+1k,np1)(p + 1 - k , n-p-1) 인 F분포를 따른다. 유의수준 α\alpha 에서 FF(p+1k,np1;α)F \le F_{ ( p+1-k , n-p-1 ; \alpha ) } 이면 H0H_{0} 가 채택되어 변수를 줄인 RM을 쓸 수 있게 된다.

같이보기