logo

회귀계수의 F-검정 📂통계적검정

회귀계수의 F-검정

가설검정

선형다중회귀모델모형진단에서 잔차선형성등분산성독립성정규성을 만족시킨다고 하자. $n$ 개의 관측치와 $p$ 개의 독립변수에 대한 다중회귀분석에 대한 가설검정은 다음과 같다.

  • $H_{0}$: $\beta_{1} = \beta_{2} = \cdots = \beta_{p} = 0$ 즉, 모든 독립변수가 종속변수과 상관관계를 가지지 않는다.
  • $H_{1}$: $\beta_{1} , \beta_{2} , \cdots , \beta_{p}$ 중 적어도 하나는 $ 0$ 이 아니다. 즉, 유의한 상관관계를 가지는 독립변수가 적어도 하나 존재한다.

유도

SST, SSR, SSE: 6. TSS(Total Sum of Squares) 혹은 SST(Sum of Squares Total): $$ \text{TSS} =\text{SST} := \sum_{i=1}^{n} ( y_{i} - \overline{y} )^2 $$ 7. ESS(Explained Sum of Squares) 혹은 SSR(Sum of Squares due to Regression): $$ \text{ESS} = \text{SSR} := \sum_{i=1}^{n} ( \hat{y}_{i} - \overline{y} )^2 $$ 8. RSS(Residual Sum of Squares) 혹은 SSE(Sum of squared Error): $$ \text{RSS} = \text{SSE} := \sum_{i=1}^{n} ( y_{i} - \hat{y}_{i} )^2 $$

SST는 평균 하나를 사용했으므로 자유도가 $(n-1)$ 이고 SSE는 $p$개의 독립변수에 따라 계산되므로 상수항을 포함해 $(p+1)$개의 회귀계수가 사용되어 자유도가 $\left( n-(p-1) \right)$ 이다. 이들은 잔차의 등분산성과 독립성, 정규성에 따라 $\sigma^{2}$ 로 나누었을 때 각각의 자유도를 가지는 카이제곱분포를 따른다. 한편 $$ SST = SSR + SSE \iff SSR = SST - SSE $$ 이므로 $SSR$ 의 자유도는 $p = (n-1) - (n-p-1)$ 이고, 카이제곱분포 $\chi^{2} (p)$ 를 따른다.

F-분포의 유도: 두 확률 변수 $U,V$ 가 독립이고 $U \sim \chi^{2} ( r_{1})$, $V \sim \chi^{2} ( r_{2})$ 이라 하면 $$ {{ U / r_{1} } \over { V / r_{2} }} \sim F \left( r_{1} , r_{2} \right) $$

검정통계량 $F$ 를 $$ F := {{ \text{SSR} / p } \over { \text{SSE} / (n-p-1 ) }} $$ 과 같이 정의하면 자유도가 $(p , n-p-1)$ 인 F-분포를 따른다.

수식으로 다시 나타내보면 $\displaystyle F = {{ \text{SSR} / p } \over { \text{SSE} / (n-p-1 ) }} \sim F(p, n-p-1)$ 인데, 이를 이용해 가설검정을 한다.

다만 이 F검정은 회귀계수 각각의 t검정을 볼 수 있다면 무의미하고, 진짜 진면목은 모형간의 비교에 있다.통계학에 숙명적으로 따라붙는 ‘주관성’이나 ‘애매함’을 떨쳐내고 통계적으로 의미 있는 결과를 낼 수 있게 되는것이다.(물론 실제 분석에서는 이보다 편리하고 쉬운 통계량을 이용해서 모델을 비교한다.)

축소모형에 대한 가설검정

$n$ 개의 관측치와 $p$ 개의 독립변수에 대한 다중회귀분석에 대해 $i=0,1,\cdots,p$ 라고 하자. 이 때의 회귀모형을 전체모형fM이라 하고, FM에서 $k$ 개의 독립변수가 제거된 모형을 축소모형rM이라 한다.

  • $H_{0}$: RM이면 충분하다. 즉, 굳이 많은 변수를 써서 FM을 사용할 필요가 없다.
  • $H_{1}$: RM은 불충분하다. 즉, 변수를 늘려서라도 FM을 쓰는 게 낫다.

$$ F = {{ [ \text{SSR} (RM) - \text{SSR} (FM) ] / (p +1 - k) } \over { \text{SSE} ( FM ) / (n-p-1 ) }} $$ 는 자유도가 $(p + 1 - k , n-p-1)$ 인 F분포를 따른다. 유의수준 $\alpha$ 에서 $F \le F_{ ( p+1-k , n-p-1 ; \alpha ) }$ 이면 $H_{0}$ 가 채택되어 변수를 줄인 RM을 쓸 수 있게 된다.

같이보기