代表値の数理的性質の証明
定理
データ $X = \left\{ x_{1} , \cdots , x_{n} \right\}$ が与えられているとしよう。
- 0: $\displaystyle h(\theta)=\sum_{i=1}^{n} {|x_i - \theta|}^{0}$ を最小にする $\theta$ は $$ \argmin_{\theta} h \left( \theta \right) = \text{mode}(X) $$
- 1: $\displaystyle h(\theta)=\sum_{i=1}^{n} {|x_i - \theta|}^{1}$ を最小にする $\theta$ は $$ \argmin_{\theta} h \left( \theta \right) = \text{median}(X) $$
- 2: $\displaystyle h(\theta)=\sum_{i=1}^{n} {|x_i - \theta|}^{2}$ を最小にする $\theta$ は $$ \argmin_{\theta} h \left( \theta \right) = \text{mean}(X) $$
説明
線形代数の用語で難しく言うと次のようになる:
上記の定理は、なぜ特定の値が代表値として考えられるのかについての数理的根拠となる。特に2の場合、分散を最小化する代表値が平均であることを含意しており、これまでの‘なぜ分散をこのように定義するのか’についての答えになり得るだろう。
証明
最頻値
戦略: $l^{0}$-ノルムは不等である度合いではなく、不等な数をカウントするノルムである。
$$ \left| x_{i} - \theta \right|^{0} := \begin{cases} 1 & , \theta \ne x_{i} \\ 0 & , \theta = x_{i} \end{cases} $$ したがって、$\displaystyle h(\theta)=\sum_{i=1}^{n} {|x_i - \theta|}^{0} = 1 + 0 + 1 + \cdots 1+ 1$ を最小化する $\theta$ は $\text{mode}(X)$
■
中央値
戦略: 絶対値の定義に従って、まずは計算が簡単になるように分解する。データの最大項と最小項を一つずつペアにして、未知数を消去し、定数項にする。そうすると、最後に最小にしなければならない未知数項が簡単になる。
$ x_{(1)} \le x_{(2)} \le \cdots \le x_{(n)}$ とする。
パート1. $\theta \in [x_{(1)} , x_{(n)} ]$ $\theta < x_{(1)}$ と仮定すると、すべての $x_{(i)}$ より $\theta$ が小さいので $$ h(\theta)=\sum_{i=1}^{n} {\left( x_{(i)} - \theta \right) } > \sum_{i=1}^{n} { \left( x_{(i)} - x_{(1)} \right) } $$ $ x_{(n)} < \theta$ と仮定すると、すべての $x_{(i)}$ より $\theta$ が大きいので $$ h(\theta)=\sum_{i=1}^{n} { \left( \theta - x_{(i)} \right) } > \sum_{i=1}^{n} { \left( x_{(n)} - x_{(i)} \right) } $$ したがって、$\theta$ が具体的に何であれ、まずは$\theta \in [x_{(1)} , x_{(n)} ]$ でなければならない。
パート2.
$\theta_{0} \in [x_{(1)} , x_{(n)} ]$ に対して $$ \begin{align*} h(\theta_{0}) =& \sum_{i=1}^{n} | x_{(i)} - \theta_{0} | \\ =& \sum_{i=2}^{n-1} | x_{(i)} - \theta_{0} | + ( \theta_{0} - x_{(1)} ) + ( x_{(n)} - \theta_{0} ) \\ =& \sum_{i=2}^{n-1} | x_{(i)} - \theta_{0} | + ( x_{(n)} - x_{(1)} ) \end{align*} $$
$\theta_{1} \in [x_{(2)} , x_{(n-1)} ] \subset [x_{(1)} , x_{(n)} ]$ に対して $$ \begin{align*} h(\theta_{1}) =& \sum_{i=1}^{n} | x_{(i)} - \theta_{1} | \\ =& \sum_{i=2}^{n-1} | x_{(i)} - \theta_{1} | + ( x_{(n)} - x_{(1)} ) \\ =& \sum_{i=3}^{n-2} | x_{(i)} - \theta_{1} | + ( x_{(n-1)} - x_{(2)} ) + ( x_{(n)} - x_{(1)} ) \end{align*} $$
このように適切な $\theta_{k} \in [x_{(1+k)} , x_{(n-k)} ]$ を選ぶたびに、$( x_{(n-k)} - x_{(1+k)} )$ がシグマの外に出ることができる。これらの項はデータ $X$ によって決定されているため、定数項であり、便宜上これらの和を次のように示そう。 $$ C_{k} : = \sum_{j=0}^{k} \left( x_{(n-j)} - x_{(j+1)} \right) $$
パート3.
ケース3-1. $ n$ が奇数の場合
- パート2. に従い $$ \begin{align*} h ( \theta ) =& \sum_{i=1}^{n} | x_{(i)} - \theta | \\ =& \sum_{i=1+k}^{n-k} | x_{(i)} - \theta | + C_{k} \\ =& \left| x_{\left( {{n+1} \over {2}} \right)} - \theta \right| + C_{{{n-1} \over {2}} - 1} \end{align*} $$ したがって、$h( \theta )$ が最小になる値は $\theta = x_{\left( {{n+1} \over {2}} \right)}$ である。
ケース3-2. $ n$ が偶数の場合
- パート2. に従い $$ \begin{align*} h ( \theta ) =& \sum_{i=1}^{n} | x_{(i)} - \theta | \\ =& \sum_{i=1+k}^{n-k} | x_{(i)} - \theta | + C_{k} \\ =& \left| x_{\left( {{n} \over {2}} \right)} - \theta \right| + \left| x_{\left( {{n} \over {2}} + 1 \right)} - \theta \right| + C_{{{n} \over {2}} - 2} \end{align*} $$ この場合、すべての $\displaystyle \theta \in \left[ x_{ \left( {{n} \over {2}} \right)} , x_{ \left( {{n} \over {2}} + 1 \right)} \right]$ は $h ( \theta )$ を最小にする。
結局、$n$ が偶数であろうと奇数であろうと、$h ( \theta)$ を最小にする $\theta$ は $X$ の中央値である。
■
平均
戦略: 微分によって簡単に導出できる。
$$ {{ d } \over { d \theta }} \sum_{i=1}^{n} \left( x_{i} - \theta \right) = \sum_{i=1}^{n} 2 \left( x_{i} - \theta \right) = 0 $$ 上記の式を満たす $\theta$ が $\displaystyle h(\theta)=\sum_{i=1}^{n} {|x_i - \theta|}^{2}$ を最小化するため $$ \displaystyle\sum_{i=1}^{n} 2 \left( x_{i} - \theta \right) = 0 \implies \sum_{i=1}^{n} x_{i} = n \theta \implies \theta = {{ 1 } \over { n }} \sum_{i=1}^{n} x_{i} $$
■