logo

대표값의 수리적 성질 증명 📂수리통계학

대표값의 수리적 성질 증명

정리

데이터 X={x1,,xn}X = \left\{ x_{1} , \cdots , x_{n} \right\} 가 주어져 있다고 하자.

  • [0]: h(θ)=i=1nxiθ0\displaystyle h(\theta)=\sum_{i=1}^{n} {|x_i - \theta|}^{0} 가 최소가 되도록 하는 θ\thetaarg minθh(θ)=mode(X) \argmin_{\theta} h \left( \theta \right) = \text{mode}(X)
  • [1]: h(θ)=i=1nxiθ1\displaystyle h(\theta)=\sum_{i=1}^{n} {|x_i - \theta|}^{1} 가 최소가 되도록 하는 θ\thetaarg minθh(θ)=median(X) \argmin_{\theta} h \left( \theta \right) = \text{median}(X)
  • [2]: h(θ)=i=1nxiθ2\displaystyle h(\theta)=\sum_{i=1}^{n} {|x_i - \theta|}^{2} 가 최소가 되도록 하는 θ\thetaarg minθh(θ)=mean(X) \argmin_{\theta} h \left( \theta \right) = \text{mean}(X)

설명

선형대수의 용어로 어렵게 말해보자면 다음과 같다:

  • [0]: l0l^{0}-놈을 최소화하는 것은 최빈값이다.
  • [1]: l1l^{1}-놈을 최소화하는 것은 중앙값이다.
  • [2]: l2l^{2}-놈을 최소화하는 것은 평균이다.

위의 정리들은 그 자체로써 대표값이 왜 대표값으로 불릴 수 있는지에 대한 수리적 근거가 된다. 특히 [2]의 경우 분산을 최소화하는 대표값이 평균이라는 것을 함의하므로 그간 ‘왜 분산을 이렇게 정의하는가’에 대한 답이 될 수도 있을 것이다.

증명

최빈값

전략: l0l^{0}-놈은 같지 않은 정도가 아니라 같지 않은 수를 카운트하는 놈이다.


xiθ0:={1,θxi0,θ=xi \left| x_{i} - \theta \right|^{0} := \begin{cases} 1 & , \theta \ne x_{i} \\ 0 & , \theta = x_{i} \end{cases} 따라서 h(θ)=i=1nxiθ0=1+0+1+1+1\displaystyle h(\theta)=\sum_{i=1}^{n} {|x_i - \theta|}^{0} = 1 + 0 + 1 + \cdots 1+ 1 를 최소화하는 θ\thetamode(X)\text{mode}(X)

중앙값

전략: 절대값의 정의에 따라 일단 계산이 쉬워지도록 풀어헤친다. 데이터가 가장 큰 항과 가장 작은 항을 하나씩 쌍을 지어 미지수를 없애고 상수항으로 만든다. 그러면 마지막에 남는 미지수에 대한 항만 최소가 되도록 하는 것은 간단하다.


x(1)x(2)x(n) x_{(1)} \le x_{(2)} \le \cdots \le x_{(n)} 이라 하자.

Part 1. θ[x(1),x(n)]\theta \in [x_{(1)} , x_{(n)} ] θ<x(1)\theta < x_{(1)} 이라고 가정하면 모든 x(i)x_{(i)} 보다 θ\theta 가 작으므로 h(θ)=i=1n(x(i)θ)>i=1n(x(i)x(1)) h(\theta)=\sum_{i=1}^{n} {\left( x_{(i)} - \theta \right) } > \sum_{i=1}^{n} { \left( x_{(i)} - x_{(1)} \right) } x(n)<θ x_{(n)} < \theta 이라고 가정하면 모든 x(i)x_{(i)} 보다 θ\theta 가 크므로 h(θ)=i=1n(θx(i))>i=1n(x(n)x(i)) h(\theta)=\sum_{i=1}^{n} { \left( \theta - x_{(i)} \right) } > \sum_{i=1}^{n} { \left( x_{(n)} - x_{(i)} \right) } 따라서 θ\theta 가 구체적으로 무엇이든 일단은 θ[x(1),x(n)]\theta \in [x_{(1)} , x_{(n)} ] 이어야한다.


Part 2.

θ0[x(1),x(n)]\theta_{0} \in [x_{(1)} , x_{(n)} ] 에 대해 h(θ0)=i=1nx(i)θ0=i=2n1x(i)θ0+(θ0x(1))+(x(n)θ0)=i=2n1x(i)θ0+(x(n)x(1)) \begin{align*} h(\theta_{0}) =& \sum_{i=1}^{n} | x_{(i)} - \theta_{0} | \\ =& \sum_{i=2}^{n-1} | x_{(i)} - \theta_{0} | + ( \theta_{0} - x_{(1)} ) + ( x_{(n)} - \theta_{0} ) \\ =& \sum_{i=2}^{n-1} | x_{(i)} - \theta_{0} | + ( x_{(n)} - x_{(1)} ) \end{align*}

θ1[x(2),x(n1)][x(1),x(n)]\theta_{1} \in [x_{(2)} , x_{(n-1)} ] \subset [x_{(1)} , x_{(n)} ] 에 대해 h(θ1)=i=1nx(i)θ1=i=2n1x(i)θ1+(x(n)x(1))=i=3n2x(i)θ1+(x(n1)x(2))+(x(n)x(1)) \begin{align*} h(\theta_{1}) =& \sum_{i=1}^{n} | x_{(i)} - \theta_{1} | \\ =& \sum_{i=2}^{n-1} | x_{(i)} - \theta_{1} | + ( x_{(n)} - x_{(1)} ) \\ =& \sum_{i=3}^{n-2} | x_{(i)} - \theta_{1} | + ( x_{(n-1)} - x_{(2)} ) + ( x_{(n)} - x_{(1)} ) \end{align*}

이와 같이 적당한 θk[x(1+k),x(nk)]\theta_{k} \in [x_{(1+k)} , x_{(n-k)} ] 를 선택할 때마다 (x(nk)x(1+k))( x_{(n-k)} - x_{(1+k)} ) 이 시그마 밖으로 나올 수 있다. 이 항들은 데이터 XX 가 결정되어있으므로 상수항이며, 편의상 이들의 합을 다음과 같이 나타내도록 하자. Ck:=j=0k(x(nj)x(j+1)) C_{k} : = \sum_{j=0}^{k} \left( x_{(n-j)} - x_{(j+1)} \right)


Part 3.

Case 3-1. n n 이 홀수

  • Part 2. 에 따라 h(θ)=i=1nx(i)θ=i=1+knkx(i)θ+Ck=x(n+12)θ+Cn121 \begin{align*} h ( \theta ) =& \sum_{i=1}^{n} | x_{(i)} - \theta | \\ =& \sum_{i=1+k}^{n-k} | x_{(i)} - \theta | + C_{k} \\ =& \left| x_{\left( {{n+1} \over {2}} \right)} - \theta \right| + C_{{{n-1} \over {2}} - 1} \end{align*} 따라서 h(θ)h( \theta ) 가 가장 작아지도록 하는 값은 θ=x(n+12)\theta = x_{\left( {{n+1} \over {2}} \right)} 이다.

Case 3-2. n n 이 짝수

  • Part 2. 에 따라 h(θ)=i=1nx(i)θ=i=1+knkx(i)θ+Ck=x(n2)θ+x(n2+1)θ+Cn22 \begin{align*} h ( \theta ) =& \sum_{i=1}^{n} | x_{(i)} - \theta | \\ =& \sum_{i=1+k}^{n-k} | x_{(i)} - \theta | + C_{k} \\ =& \left| x_{\left( {{n} \over {2}} \right)} - \theta \right| + \left| x_{\left( {{n} \over {2}} + 1 \right)} - \theta \right| + C_{{{n} \over {2}} - 2} \end{align*} 20190521\_115121.png 이 때 모든 θ[x(n2),x(n2+1)]\displaystyle \theta \in \left[ x_{ \left( {{n} \over {2}} \right)} , x_{ \left( {{n} \over {2}} + 1 \right)} \right]h(θ)h ( \theta ) 가 가장 작아지도록 한다.

결국 nn 이 짝수든 홀수든 h(θ)h ( \theta) 가 가장 작아지도록 하는 θ\thetaXX 의 중위수다.

평균

전략: 미분으로 간단하게 유도할 수 있다.


ddθi=1n(xiθ)=i=1n2(xiθ)=0 {{ d } \over { d \theta }} \sum_{i=1}^{n} \left( x_{i} - \theta \right) = \sum_{i=1}^{n} 2 \left( x_{i} - \theta \right) = 0 위 식을 만족하는 θ\thetah(θ)=i=1nxiθ2\displaystyle h(\theta)=\sum_{i=1}^{n} {|x_i - \theta|}^{2} 를 최소화하므로 i=1n2(xiθ)=0    i=1nxi=nθ    θ=1ni=1nxi \displaystyle\sum_{i=1}^{n} 2 \left( x_{i} - \theta \right) = 0 \implies \sum_{i=1}^{n} x_{i} = n \theta \implies \theta = {{ 1 } \over { n }} \sum_{i=1}^{n} x_{i}

같이보기