logo

Zスコアと標準化 📂データサイエンス

Zスコアと標準化

定義 1

  1. 平均がμ\muで標準偏差がσ\sigmaの分布に従う確率変数XXに対して、以下の変換を標準化と呼ぶ。 Z=Xμσ Z = {{ X - \mu } \over { \sigma }}
  2. 量的データ{x}\left\{ x \right\}が与えられたとしよう。標本平均x\overline{x}標本標準偏差ssに対して、以下の統計量zz標本z-スコアと呼ぶ。 z:=xxs z := {{ x - \overline{x} } \over { s }}

説明

zz-スコアは、多くの場合、データの相対位置を見るために使用される指標で、実際のデータの数値とは関係なく、分布自体に注目する場合に便利だ。それを実現するために、各データから平均を引き、標準偏差で割るプロセスを標準化というが、データ科学で使われる正規化正則化と混同しないよう注意が必要だ。標準化という表現は、z-スコアの数理統計学的な性質から来ていると考えても良くて、たとえば母集団がXXで最も有名な正規分布N(μ,σ2)N \left( \mu , \sigma^{2} \right)に従う場合、 Z=XμσN(0,12) Z = {{ X - \mu } \over { \sigma }} \sim N \left( 0, 1^{2} \right) なので、z-スコアは標準正規分布に従うことになる。このように、平均を00、分散を11に合わせるという意味で、実際のデータの具体的な数値は無意味となり、分布にのみ焦点を当てることができるようになる。

参照


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p75. ↩︎