비모수 통계학이란?
정의 1
통계학에서 비모수 통계학nonparametric statistics이란 주로 모집단의 분포에 대한 가정을 하지 않는 통계적 방법론을 말하며, 특히 가설검정을 위한 조건이 거의 없다는 특징을 가진다.
설명
예로써 분산분석에서 가설검정이 어떻게 이루어지는지를 보자.
일원분산분석: 실험 설계 상 $k$ 개의 처리가 있을 때, 각 처리에서 $n_{j}$ 개씩 총 $n = n_{1} + \cdots + n_{k}$ 개의 표본을 얻었다고 하자. $j = 1 , \cdots , k$ 번째 처리의 표본이 각자 독립적이고 랜덤하게 정규분포 $N \left( \mu_{j} , \sigma_{j}^{2} \right)$ 를 따르며, 각 정규분포의 모분산이 같아서 $\sigma^{2} = \sigma_{1}^{2} = \cdots = \sigma_{k}^{2}$ 라 가정하자. 집단 간의 모평균를 비교하는 분산분석인 일원분산분석one-way ANOVA에서 가설검정은 다음과 같다.
- $H_{0}$: $\mu_{1} = \cdots = \mu_{k}$
- $H_{1}$: 적어도 하나의 $\mu_{j}$ 는 다른 모평균과 다르다.
또 다른 예로써, 회귀분석에서의 어떤 가설검정은 다음과 같다.
회귀계수의 $t$-검정: $$ \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & \cdots & x_{p1} \\ 1 & x_{12} & \cdots & x_{p2} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{1n} & \cdots & x_{pn} \end{bmatrix} \begin{bmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{p} \end{bmatrix} + \begin{bmatrix} \varepsilon_{1} \\ \varepsilon_{2} \\ \vdots \\ \varepsilon_{n} \end{bmatrix} $$ 독립변수가 $p$ 개인 $n$ 개의 데이터와 주어져 있을 때 선형다중회귀모델을 계획행렬로 나타내면 위와 같고, 간단히 $Y = X \beta + \varepsilon$ 라 나타내자. 모형진단에서 잔차가 선형성과 등분산성과 독립성과 정규성을 만족시킨다고 하자. 다중회귀분석에서 각 회귀계수에 대한 가설검정은 다음과 같다.
통계학 전체에 있어서 분산분석과 회귀분석은 학부 2학년 정도면 충분히 이해하고 활용할 수 있는 수준인데, 보다시피 이들을 사용하기 위한 조건이 꽤나 많고 복잡하다. 가정을 만족하지 않더라도 분석 기법을 냅다 꽂으면 어떻게든 결과가 나오기는 하겠지만, 그 결과는 이론적인 근거가 부족하기 때문에 믿을 수가 없다.
데이터가 가정을 만족하지 않는 예로는 정규성이나 등분산성이 결여된 경우는 물론, 다음과 같이 데이터의 특성 자체에서 모수적 방법을 적용하기 어려운 상황을 상상할 수 있다:
- 데이터의 순서나 순위만 알 수 있는 경우: 세계 대학 랭킹, 신제품 테스트 결과 선호도
- 절삭된truncated 데이터: 특정 범위 이상의 데이터 측정할 수 없거나 의도적으로 누락
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p630. ↩︎