logo

통계적 분석에서의 변수 선택 기준 📂통계적분석

통계적 분석에서의 변수 선택 기준

개요

변수를 선택하는 문제는 필연적으로 분석자의 주관이 개입할 수 밖에 없지만, 가능한 한 객관적인 결론을 내릴 수 있게 도와주는 수치적인 지표가 필요했다. 그런 값들을 계산해낼 수 있다면 변수 선택 절차를 언제 멈추느냐에 대한 명쾌한 해답이 된다. 다만 이 기준에도 여러가지 종류가 있으며, 기준을 다르게 적용하면 결과 역시 달라질 수 있다.

지표 1

설명력r-squared $R^2$

설명력은 $\displaystyle R^2 = 1 - {{ \text{ SSE } } \over { \text{ SST} }}$ 으로 계산되며 $1$ 에 가까울수록 모형이 데이터를 잘 설명한다고 해석할 수 있다.

다만 변수 선택 기준으로써는 비교될 모형끼리 독립 변수의 갯수가 다르면 의미가 없어서 별로 적절하지 못하다.

수정설명력adjusted R-squared $R_{a}^2$

회귀분석에서 변수의 갯수가 늘어난다는 것은 그만큼 쓸수있는 데이터가 늘어난다는 것이고, 그 때 설명력 $R^{2}$ 는 무조건 증가한다. 이에 반해 수정설명력은 설명력과 달리 $\displaystyle R^{2}_{a} = 1 - {{ \text{ SSE } / (n - p - 1) } \over { \text{ SST} / (n - 1) }}$ 로 계산되어 변수의 갯수가 반영된다는 것이 다르다.

수정설명력 $R^{2}_{a}$ 는 변수의 갯수에 대해 페널티를 적용함으로써 변수 갯수가 다르면 쓸 수 없는 설명력의 단점을 극복한다. 또한 다른 변수 선택 기준은 상대적인 지표라서 모형과 모형을 비교할 때만 의미가 있는 것과 달리, 수정설명력은 그 자체로써 모형이 얼마나 데이터를 잘 설명하는지도 알려주므로 어떤 기준을 쓰든 참고할 수 밖에 없는 지표이기도 하다. 변수 선택 기준으로써 인기 있지는 않지만, 최적의 모형이 아니라 가장 설명력이 높은 모형을 원한다면 유용하게 쓰일 수 있다.

아카이케 정보 기준akaike Information Criteria $\text{AIC}_{p}$

독립변수 $p$ 개에 대해 아카이케 정보 기준은 $\displaystyle \text{AIC}_{p} := n \ln \left( {{ \text{SSE}_{p} } \over {n}} \right) + 2(p+1) $ 으로 계산된다.AIC는 실제 분석에서 가장 즐겨쓰는 척도로써, 두 모형을 비교했을 때 AIC가 더 작은 쪽이 더 좋다고 판단한다.

수식에서 두번째 항은 $p$ 가 커질수록, 즉 변수가 많아질수록 패널티를 준다고 보면 된다.AIC의 단점은 표본 $n$ 이 다른 경우 비교가 부정확해진다는 것이다. 같은 데이터를 가지고 변수만 바꿔서 분석하는데 어떻게 $n$ 이 다를 수 있나 싶겠지만, 특정 변수가 많은 결측치를 가지는 경우엔 이것이 치명적인 문제가 될 수가 있다.

베이즈 정보 기준Bayes Information Criteria $\text{ BIC }_{p}$

독립변수 $p$ 개에 대해 베이즈 정보 기준은 $\displaystyle \text{BIC}_{p} := n \ln \left( {{ \text{SSE}_{p} } \over {n}} \right) + ( p +1 ) \ln n $ 으로 계산된다.AIC와 유사하지만 마지막 항을 수정함으로써 AIC를 보완했으며, AIC와 마찬가지로 더 작은 쪽이 더 좋다고 판단한다.

멜로우mallows $C_{p}$

독립변수 $p$ 개에 대해 멜로우 $C_{p}$ 는 $\displaystyle C_{p} := {{ \text{SSE}_{p} } \over { \hat{\sigma}^2 }} + ( 2p - n )$ 으로 계산된다.

$C_{p}$ 는 편의가 적은 방향으로 변수를 선택하며, 변수의 수와 비슷할수록 더 좋다고 판단한다.말하자면 $C_{p} \approx p$ 에 가까워질수록 편의가 없다고 볼 수 있다. 편의를 신경써야할 분석이 있다면야 쓸만하겠고 수학적으로도 깔끔해지니까 좋은데, 최근엔 다소의 편의가 있더라도 분산을 확 줄여서 정교하게 맞추는 기법들이 각광을 받고 있어 인기는 없다.


  1. Hadi. (2006). Regression Analysis by Example(4th Edition): p285~288. ↩︎