z-스코어와 표준화
정의 1
- 모평균이 $\mu$ 고 모표준편차가 $\sigma$ 인 분포를 따르는 확률변수 $X$ 에 대해 다음과 같은 변환을 표준화standardization라 한다. $$ Z = {{ X - \mu } \over { \sigma }} $$
- 양적 데이터 $\left\{ x \right\}$ 가 주어져 있다고 하자. 표본평균 $\overline{x}$ 과 표본표준편차 $s$ 에 대해 다음과 같은 통계량 $z$ 을 표본 z-스코어sample z-score라 한다. $$ z := {{ x - \overline{x} } \over { s }} $$
설명
$z$-스코어란 많은 경우 데이터의 상대적 위치relative Standing을 보기 위해 사용하는 지표로써, 실제 데이터의 수치와 관계 없이 분포 자체에 주목할 때 유용하다. 이를 위해 각 데이터에서 평균을 빼고 표준편차로 나누는 과정을 표준화라 하는데, 흔히 데이터과학에서 쓰이는 정규화normalization나 정칙화regularization와 혼동하지 않도록 주의해야한다. 표준화라는 표현은 z-스코어의 수리통계적인 성질에서 나왔다고 보아도 무방한데, 가령 모집단이 $X$ 가 가장 유명한 정규분포 $N \left( \mu , \sigma^{2} \right)$ 를 따른다고 할 때 $$ Z = {{ X - \mu } \over { \sigma }} \sim N \left( 0, 1^{2} \right) $$ 이므로 z-스코어는 표준정규분포standard Normal Distributino을 따르게 된다. 이처럼 평균을 $0$, 분산을 $1$로 맞춘다는 의미에서 실제 데이터의 구체적인 수치는 아무런 의미가 없어지며 오직 분포에만 집중할 수 있게 된다.
같이보기
- 표준화: 보통 통계학에서 데이터의 평균을 $0$, 분산 $1$ 로 맞추는 과정을 말한다.
- 정규화: 보통 데이터를 특정 구간에 위치 시키는 과정을 말한다.
- 정칙화: 보통 머신러닝에서 과적합을 막는 과정들을 말한다.
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p75. ↩︎