logo

Zスコアと標準化 📂データサイエンス

Zスコアと標準化

定義 1

  1. 平均が$\mu$で標準偏差が$\sigma$の分布に従う確率変数$X$に対して、以下の変換を標準化と呼ぶ。 $$ Z = {{ X - \mu } \over { \sigma }} $$
  2. 量的データ$\left\{ x \right\}$が与えられたとしよう。標本平均$\overline{x}$と標本標準偏差$s$に対して、以下の統計量$z$を標本z-スコアと呼ぶ。 $$ z := {{ x - \overline{x} } \over { s }} $$

説明

$z$-スコアは、多くの場合、データの相対位置を見るために使用される指標で、実際のデータの数値とは関係なく、分布自体に注目する場合に便利だ。それを実現するために、各データから平均を引き、標準偏差で割るプロセスを標準化というが、データ科学で使われる正規化正則化と混同しないよう注意が必要だ。標準化という表現は、z-スコアの数理統計学的な性質から来ていると考えても良くて、たとえば母集団が$X$で最も有名な正規分布$N \left( \mu , \sigma^{2} \right)$に従う場合、 $$ Z = {{ X - \mu } \over { \sigma }} \sim N \left( 0, 1^{2} \right) $$ なので、z-スコアは標準正規分布に従うことになる。このように、平均を$0$、分散を$1$に合わせるという意味で、実際のデータの具体的な数値は無意味となり、分布にのみ焦点を当てることができるようになる。

参照


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p75. ↩︎