대표값의 수리적 성질 증명
정리
데이터 $X = \left\{ x_{1} , \cdots , x_{n} \right\}$ 가 주어져 있다고 하자.
- [0]: $\displaystyle h(\theta)=\sum_{i=1}^{n} {|x_i - \theta|}^{0}$ 가 최소가 되도록 하는 $\theta$ 는 $$ \argmin_{\theta} h \left( \theta \right) = \text{mode}(X) $$
- [1]: $\displaystyle h(\theta)=\sum_{i=1}^{n} {|x_i - \theta|}^{1}$ 가 최소가 되도록 하는 $\theta$ 는 $$ \argmin_{\theta} h \left( \theta \right) = \text{median}(X) $$
- [2]: $\displaystyle h(\theta)=\sum_{i=1}^{n} {|x_i - \theta|}^{2}$ 가 최소가 되도록 하는 $\theta$ 는 $$ \argmin_{\theta} h \left( \theta \right) = \text{mean}(X) $$
설명
선형대수의 용어로 어렵게 말해보자면 다음과 같다:
- [0]: $l^{0}$-놈을 최소화하는 것은 최빈값이다.
- [1]: $l^{1}$-놈을 최소화하는 것은 중앙값이다.
- [2]: $l^{2}$-놈을 최소화하는 것은 평균이다.
위의 정리들은 그 자체로써 대표값이 왜 대표값으로 불릴 수 있는지에 대한 수리적 근거가 된다. 특히 [2]의 경우 분산을 최소화하는 대표값이 평균이라는 것을 함의하므로 그간 ‘왜 분산을 이렇게 정의하는가’에 대한 답이 될 수도 있을 것이다.
증명
최빈값
전략: $l^{0}$-놈은 같지 않은 정도가 아니라 같지 않은 수를 카운트하는 놈이다.
$$ \left| x_{i} - \theta \right|^{0} := \begin{cases} 1 & , \theta \ne x_{i} \\ 0 & , \theta = x_{i} \end{cases} $$ 따라서 $\displaystyle h(\theta)=\sum_{i=1}^{n} {|x_i - \theta|}^{0} = 1 + 0 + 1 + \cdots 1+ 1$ 를 최소화하는 $\theta$ 는 $\text{mode}(X)$
■
중앙값
전략: 절대값의 정의에 따라 일단 계산이 쉬워지도록 풀어헤친다. 데이터가 가장 큰 항과 가장 작은 항을 하나씩 쌍을 지어 미지수를 없애고 상수항으로 만든다. 그러면 마지막에 남는 미지수에 대한 항만 최소가 되도록 하는 것은 간단하다.
$ x_{(1)} \le x_{(2)} \le \cdots \le x_{(n)}$ 이라 하자.
Part 1. $\theta \in [x_{(1)} , x_{(n)} ]$ $\theta < x_{(1)}$ 이라고 가정하면 모든 $x_{(i)}$ 보다 $\theta$ 가 작으므로 $$ h(\theta)=\sum_{i=1}^{n} {\left( x_{(i)} - \theta \right) } > \sum_{i=1}^{n} { \left( x_{(i)} - x_{(1)} \right) } $$ $ x_{(n)} < \theta$ 이라고 가정하면 모든 $x_{(i)}$ 보다 $\theta$ 가 크므로 $$ h(\theta)=\sum_{i=1}^{n} { \left( \theta - x_{(i)} \right) } > \sum_{i=1}^{n} { \left( x_{(n)} - x_{(i)} \right) } $$ 따라서 $\theta$ 가 구체적으로 무엇이든 일단은 $\theta \in [x_{(1)} , x_{(n)} ]$ 이어야한다.
Part 2.
$\theta_{0} \in [x_{(1)} , x_{(n)} ]$ 에 대해 $$ \begin{align*} h(\theta_{0}) =& \sum_{i=1}^{n} | x_{(i)} - \theta_{0} | \\ =& \sum_{i=2}^{n-1} | x_{(i)} - \theta_{0} | + ( \theta_{0} - x_{(1)} ) + ( x_{(n)} - \theta_{0} ) \\ =& \sum_{i=2}^{n-1} | x_{(i)} - \theta_{0} | + ( x_{(n)} - x_{(1)} ) \end{align*} $$
$\theta_{1} \in [x_{(2)} , x_{(n-1)} ] \subset [x_{(1)} , x_{(n)} ]$ 에 대해 $$ \begin{align*} h(\theta_{1}) =& \sum_{i=1}^{n} | x_{(i)} - \theta_{1} | \\ =& \sum_{i=2}^{n-1} | x_{(i)} - \theta_{1} | + ( x_{(n)} - x_{(1)} ) \\ =& \sum_{i=3}^{n-2} | x_{(i)} - \theta_{1} | + ( x_{(n-1)} - x_{(2)} ) + ( x_{(n)} - x_{(1)} ) \end{align*} $$
이와 같이 적당한 $\theta_{k} \in [x_{(1+k)} , x_{(n-k)} ]$ 를 선택할 때마다 $( x_{(n-k)} - x_{(1+k)} )$ 이 시그마 밖으로 나올 수 있다. 이 항들은 데이터 $X$ 가 결정되어있으므로 상수항이며, 편의상 이들의 합을 다음과 같이 나타내도록 하자. $$ C_{k} : = \sum_{j=0}^{k} \left( x_{(n-j)} - x_{(j+1)} \right) $$
Part 3.
Case 3-1. $ n$ 이 홀수
- Part 2. 에 따라 $$ \begin{align*} h ( \theta ) =& \sum_{i=1}^{n} | x_{(i)} - \theta | \\ =& \sum_{i=1+k}^{n-k} | x_{(i)} - \theta | + C_{k} \\ =& \left| x_{\left( {{n+1} \over {2}} \right)} - \theta \right| + C_{{{n-1} \over {2}} - 1} \end{align*} $$ 따라서 $h( \theta )$ 가 가장 작아지도록 하는 값은 $\theta = x_{\left( {{n+1} \over {2}} \right)}$ 이다.
Case 3-2. $ n$ 이 짝수
- Part 2. 에 따라 $$ \begin{align*} h ( \theta ) =& \sum_{i=1}^{n} | x_{(i)} - \theta | \\ =& \sum_{i=1+k}^{n-k} | x_{(i)} - \theta | + C_{k} \\ =& \left| x_{\left( {{n} \over {2}} \right)} - \theta \right| + \left| x_{\left( {{n} \over {2}} + 1 \right)} - \theta \right| + C_{{{n} \over {2}} - 2} \end{align*} $$ 이 때 모든 $\displaystyle \theta \in \left[ x_{ \left( {{n} \over {2}} \right)} , x_{ \left( {{n} \over {2}} + 1 \right)} \right]$ 은 $h ( \theta )$ 가 가장 작아지도록 한다.
결국 $n$ 이 짝수든 홀수든 $h ( \theta)$ 가 가장 작아지도록 하는 $\theta$ 는 $X$ 의 중위수다.
■
평균
전략: 미분으로 간단하게 유도할 수 있다.
$$ {{ d } \over { d \theta }} \sum_{i=1}^{n} \left( x_{i} - \theta \right) = \sum_{i=1}^{n} 2 \left( x_{i} - \theta \right) = 0 $$ 위 식을 만족하는 $\theta$ 가 $\displaystyle h(\theta)=\sum_{i=1}^{n} {|x_i - \theta|}^{2}$ 를 최소화하므로 $$ \displaystyle\sum_{i=1}^{n} 2 \left( x_{i} - \theta \right) = 0 \implies \sum_{i=1}^{n} x_{i} = n \theta \implies \theta = {{ 1 } \over { n }} \sum_{i=1}^{n} x_{i} $$
■