평균과 분산의 또 다른 정의
정의
유클리드 공간 1
확률변수 에 대해서 편차제곱의 기대값의 인피멈 을 의 분산variance이라 정의한다. 편차제곱의 기대값을 최소화하는 값 를 평균mean이라 정의한다.
일반적인 공간
확률원소 에 대해서 편차제곱의 기대값의 인피멈 을 의 분산이라 정의하고, 편차제곱의 기대값을 최소화하는 을 평균이라 정의한다.
설명
원래 보편적인 확률론에서는 퍼스트 모먼트로써 평균을 정의한 뒤 평균과의 편차제곱합으로써 분산을 정의한다. 우연의 일치인지 어떤지는 몰라도 평균은 편차제곱합을 최소화하는 성질을 가지고 있고, 실제로 증명할 수도 있다. 그러나 이 포스트에서는 분산을 먼저 정의하고 편차제곱의 기대값을 최소화하는 것을 평균이라 정의하는데, 이 아닌 매니폴드 등을 상정하면 오히려 이 쪽이 최소제곱이라는 센스에서 더 자연스럽다.
에 대한 분산과 평균의 정의에 따르면 평균은 더 이상 유일하지 않을 수도 있다. 예를 들어 구면 위에서의 확률분포인 피셔 분포를 생각해보자. 구면 상에서의 어떤 점 의 정반대에 위치한 점을 라 나타낸다면, 이고 이라 할 때 는 와 둘 다를 평균으로써 가져도 전혀 문제 없다.
앞선 예시에서 흥미로운 점은 ‘평균’이라는 단어 자체의 의미가 이미 퇴색되어 있다는 것이다. 외의 세상에서 평균은 그냥 평균이 아니라 평균 벡터, 평균 행렬, 평균 그래프 등의 여러가지 표현이 있을지도 모른다. 그러나 분산은 확률원소가 어떤 에서 정의되더라도 여전히 흩어짐dispersion을 나타내는 개념으로써 항상 실수 값을 가질 것이다. 이러한 관점에서 본다면 분산이야말로 본질적이며 핵심적인 개념이고, 평균보다 앞서서 정의되는 것이 당연하다.
Gerald B. Folland, Real Analysis: Modern Techniques and Their Applications (2nd Edition, 1999): p314 ↩︎