회귀계수의 t-검정

가설검정

$$ \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} $$ 독립변수가 $p$ 개인 $n$ 개의 데이터와 주어져 있을 때 선형다중회귀모델을 계획행렬로 나타내면 위와 같고, 간단히 $Y = X \beta + \varepsilon$ 라 나타내자. 모형진단에서 잔차가 선형성과 등분산성과 독립성과 정규성을 만족시킨다고 하자. 다중회귀분석에서 각 회귀계수에 대한 가설검정은 다음과 같다.

$H_{0}$: $\beta_{j} = 0$ 즉, $j$번째 독립변수는 종속변수과 상관관계가 없다.
$H_{1}$: $\beta_{j} \ne 0$ 즉, $j$번째 독립변수에 대한 회귀계수가 유의하다.

유도 ¹

회귀계수의 정규성: $$ \hat{\beta} \sim N_{1+p} \left( \beta , \sigma^{2} \left( X^{T} X \right)^{-1} \right) $$
잔차제곱합의 불편추정량과 회귀계수의 표준오차: $$ E \widehat{\sigma^{2}} = E \left[ {{ 1 } \over { n-p-1 }} \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} \right] = \sigma^{2} $$ $$ \text{s.e.} \left( \hat{\beta}_{k} \right) = \hat{\sigma} \sqrt{ \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } $$

회귀계수의 추정치 $\hat{ \beta_{j} }$ 와 표준오차 $\text{se} \left( \hat{ \beta_{j} } \right)$ 에 대해 $t_{j}$ 를 다음과 같이 두자. $$ t_{j} := {{\hat{ \beta_{j} }} \over {\text{se} \left( \hat{ \beta_{j} } \right)}} $$

카이제곱분포를 따르는 확률변수의 합: 확률 변수 $X_{1} , \cdots , X_{n}$ 들이 상호 독립이라고 하자. $X_i \sim \chi^2 ( r_{i} )$ 이면 $$ \sum_{i=1}^{n} X_{i} \sim \chi ^2 \left( \sum_{i=1}^{n} r_{i} \right) $$

잔차제곱합 $\sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} / \sigma^{2}$ 은 데이터의 수가 $n$개고 $p$개의 독립변수와 $1$개의 상수항만큼의 표본평균이 사용되어―독립인 확률변수는 $(n-p-1)$개만 사용되었으므로 자유도 $(n-p-1)$ 인 카이제곱분포를 따르고 귀무가설 하에서는―귀무가설이 참이라고 가정할 땐 $\beta_{j} = 0$ 이어서 $\hat{\beta}_{j} \sim N \left( 0 , \sigma^{2} \left( X^{T} X \right)^{-1}_{jj} \right)$ 이므로 다음을 얻는다. $$ \begin{align*} t_{j} =& {{\hat{ \beta_{j} }} \over {\text{se} \left( \hat{ \beta_{j} } \right)}} \\ =& {{\hat{ \beta_{j}} - 0 } \over { \hat{\sigma} \sqrt{ \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } }} \\ =& {{\hat{ \beta_{j}} - 0 } \over { \sqrt{ {{ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} } \over { n-p-1 }} \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } }} \\ =& {{ {{ \hat{ \beta_{j}} - 0 } \over { \sqrt{ \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } }} } \over { \sqrt{ {{ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} } \over { n-p-1 }} } }} \\ =& {{ {{ \hat{ \beta_{j} } - 0 } \over { \sigma \sqrt{ \left[ \left( X^{T} X \right)^{-1} \right]_{kk} } }} } \over { \sqrt{ {{ \sum_{i=1}^{n} \left( y_{i} - \hat{y}_{i} \right)^{2} } \over { \sigma^{2} }} / (n-p-1) } }} \\ \sim & {{ N (0,1) } \over { \sqrt{\chi^{2} (n-p-1) / n-p-1} }} \end{align*} $$

t-분포 유도: 두 확률 변수 $W,V$ 가 독립이고 $W \sim N(0,1)$, $V \sim \chi^{2} (r)$ 이라 하면 $$ T = { {W} \over {\sqrt{V/r} } } \sim t(r) $$

정리하면 $t_{j}$ 는 자유도가 $(n-p-1)$ 인 t-분포를 따른다. 수식으로 다시 나타내보면 $$ t_{j} = {{\hat{ \beta_{j} }} \over {\text{se} \left( \hat{ \beta_{j} } \right)}} \sim t(n-p-1) $$ 인데, 이를 이용해 가설검정을 한다. 만약 $$ \left| t_j \right| \ge t_{(n-p-1 , {{\alpha} \over {2}})} $$ 이면 귀무가설을 기각한다. $\left| t_j \right|$ 이 그정도로 크다는 것은 귀무가설이 참이라고 믿기에는 $\hat{ \beta_{j} }$ 가 너무 크다는 의미다.

■

설명

$j$번째 변수과 유의수준 $\alpha$ 에 대해 신뢰구간 $\hat{ \beta_{j} } \pm t_{(n-p-1 , {{\alpha} \over {2}})} \text{se} ( \hat{ \beta_{j}} )$ 을 구할 수도 있다.

유도과정은 담담하게 풀어 썼지만 실제로 저 증명을 회귀분석을 배우는 학부생이 이해하기는 상당히 어려울 수 있다. $t_{j}$ 가 t-분포를 따르는 건 크게 어렵지 않지만 그 보조정리로써 회귀계수의 분포에 대해 알아야하고 모형진단에 대한 개념이 확실히 잡혀있어야 한다.

같이보기

Hadi. (2006). Regression Analysis by Example(4th Edition): p0. ↩︎