z-스코어와 표준화
정의 1
- 모평균이 고 모표준편차가 인 분포를 따르는 확률변수 에 대해 다음과 같은 변환을 표준화standardization라 한다.
- 양적 데이터 가 주어져 있다고 하자. 표본평균 과 표본표준편차 에 대해 다음과 같은 통계량 을 표본 z-스코어sample z-score라 한다.
설명
-스코어란 많은 경우 데이터의 상대적 위치relative standing을 보기 위해 사용하는 지표로써, 실제 데이터의 수치와 관계 없이 분포 자체에 주목할 때 유용하다. 이를 위해 각 데이터에서 평균을 빼고 표준편차로 나누는 과정을 표준화라 하는데, 흔히 데이터과학에서 쓰이는 정규화normalization나 정칙화regularization와 혼동하지 않도록 주의해야한다. 표준화라는 표현은 z-스코어의 수리통계적인 성질에서 나왔다고 보아도 무방한데, 가령 모집단이 가 가장 유명한 정규분포 를 따른다고 할 때 이므로 z-스코어는 표준정규분포standard normal distribution을 따르게 된다. 이처럼 평균을 , 분산을 로 맞춘다는 의미에서 실제 데이터의 구체적인 수치는 아무런 의미가 없어지며 오직 분포에만 집중할 수 있게 된다.
같이보기
- 표준화: 보통 통계학에서 데이터의 평균을 , 분산 로 맞추는 과정을 말한다.
- 정규화: 보통 데이터를 특정 구간에 위치 시키는 과정을 말한다.
- 정칙화: 보통 머신러닝에서 과적합을 막는 과정들을 말한다.
Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p75. ↩︎