위의 정리들은 그 자체로써 대표값이 왜 대표값으로 불릴 수 있는지에 대한 수리적 근거가 된다. 특히 [2]의 경우 분산을 최소화하는 대표값이 평균이라는 것을 함의하므로 그간 ‘왜 분산을 이렇게 정의하는가’에 대한 답이 될 수도 있을 것이다.
증명
최빈값
전략: l0-놈은 같지 않은 정도가 아니라 같지 않은 수를 카운트하는 놈이다.
∣xi−θ∣0:={10,θ=xi,θ=xi
따라서 h(θ)=i=1∑n∣xi−θ∣0=1+0+1+⋯1+1 를 최소화하는 θ 는 mode(X)
■
중앙값
전략: 절대값의 정의에 따라 일단 계산이 쉬워지도록 풀어헤친다. 데이터가 가장 큰 항과 가장 작은 항을 하나씩 쌍을 지어 미지수를 없애고 상수항으로 만든다. 그러면 마지막에 남는 미지수에 대한 항만 최소가 되도록 하는 것은 간단하다.
x(1)≤x(2)≤⋯≤x(n) 이라 하자.
Part 1. θ∈[x(1),x(n)]θ<x(1) 이라고 가정하면 모든 x(i) 보다 θ 가 작으므로
h(θ)=i=1∑n(x(i)−θ)>i=1∑n(x(i)−x(1))x(n)<θ 이라고 가정하면 모든 x(i) 보다 θ 가 크므로
h(θ)=i=1∑n(θ−x(i))>i=1∑n(x(n)−x(i))
따라서 θ 가 구체적으로 무엇이든 일단은 θ∈[x(1),x(n)] 이어야한다.
Part 2.
θ0∈[x(1),x(n)] 에 대해
h(θ0)===i=1∑n∣x(i)−θ0∣i=2∑n−1∣x(i)−θ0∣+(θ0−x(1))+(x(n)−θ0)i=2∑n−1∣x(i)−θ0∣+(x(n)−x(1))
θ1∈[x(2),x(n−1)]⊂[x(1),x(n)] 에 대해
h(θ1)===i=1∑n∣x(i)−θ1∣i=2∑n−1∣x(i)−θ1∣+(x(n)−x(1))i=3∑n−2∣x(i)−θ1∣+(x(n−1)−x(2))+(x(n)−x(1))
이와 같이 적당한 θk∈[x(1+k),x(n−k)] 를 선택할 때마다 (x(n−k)−x(1+k)) 이 시그마 밖으로 나올 수 있다. 이 항들은 데이터X 가 결정되어있으므로 상수항이며, 편의상 이들의 합을 다음과 같이 나타내도록 하자.
Ck:=j=0∑k(x(n−j)−x(j+1))
Part 3.
Case 3-1. n 이 홀수
Part 2. 에 따라
h(θ)===i=1∑n∣x(i)−θ∣i=1+k∑n−k∣x(i)−θ∣+Ckx(2n+1)−θ+C2n−1−1
따라서 h(θ) 가 가장 작아지도록 하는 값은 θ=x(2n+1) 이다.
Case 3-2. n 이 짝수
Part 2. 에 따라
h(θ)===i=1∑n∣x(i)−θ∣i=1+k∑n−k∣x(i)−θ∣+Ckx(2n)−θ+x(2n+1)−θ+C2n−2
이 때 모든 θ∈[x(2n),x(2n+1)] 은 h(θ) 가 가장 작아지도록 한다.
결국 n 이 짝수든 홀수든 h(θ) 가 가장 작아지도록 하는 θ 는 X 의 중위수다.
■
평균
전략: 미분으로 간단하게 유도할 수 있다.
dθdi=1∑n(xi−θ)=i=1∑n2(xi−θ)=0
위 식을 만족하는 θ 가 h(θ)=i=1∑n∣xi−θ∣2 를 최소화하므로
i=1∑n2(xi−θ)=0⟹i=1∑nxi=nθ⟹θ=n1i=1∑nxi