logo

z-스코어와 표준화 📂데이터과학

z-스코어와 표준화

정의 1

  1. 모평균이 μ\mu 고 모표준편차가 σ\sigma 인 분포를 따르는 확률변수 XX 에 대해 다음과 같은 변환을 표준화standardization라 한다. Z=Xμσ Z = {{ X - \mu } \over { \sigma }}
  2. 양적 데이터 {x}\left\{ x \right\} 가 주어져 있다고 하자. 표본평균 x\overline{x}표본표준편차 ss 에 대해 다음과 같은 통계량 zz표본 z-스코어sample z-score라 한다. z:=xxs z := {{ x - \overline{x} } \over { s }}

설명

zz-스코어란 많은 경우 데이터의 상대적 위치relative standing을 보기 위해 사용하는 지표로써, 실제 데이터의 수치와 관계 없이 분포 자체에 주목할 때 유용하다. 이를 위해 각 데이터에서 평균을 빼고 표준편차로 나누는 과정을 표준화라 하는데, 흔히 데이터과학에서 쓰이는 정규화normalization정칙화regularization와 혼동하지 않도록 주의해야한다. 표준화라는 표현은 z-스코어의 수리통계적인 성질에서 나왔다고 보아도 무방한데, 가령 모집단이 XX 가 가장 유명한 정규분포 N(μ,σ2)N \left( \mu , \sigma^{2} \right) 를 따른다고 할 때 Z=XμσN(0,12) Z = {{ X - \mu } \over { \sigma }} \sim N \left( 0, 1^{2} \right) 이므로 z-스코어는 표준정규분포standard normal distribution을 따르게 된다. 이처럼 평균을 00, 분산을 11로 맞춘다는 의미에서 실제 데이터의 구체적인 수치는 아무런 의미가 없어지며 오직 분포에만 집중할 수 있게 된다.

같이보기


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p75. ↩︎