수리통계학에서의 편의

수리통계학에서의 편의

정의

모수 $\theta$ 에 대한 추정량 $\widehat{\theta}$ 에 대해 다음과 같이 정의된 $\text{Bias}$ 를 편의라 한다. $$ \text{Bias} ( \theta ) = E(\widehat{\theta}) - \theta $$

설명

Bias는 편의 또는 편향으로 순화되지만, 역시 가장 많이 쓰이는 말은 발음 그대로 읽은 [바이어스]다. 한국어에서 편의는 Convenience인 경우가 압도적으로 많고 수식적으로나 실제 쓰임새로나 ‘편향’으로 순화하는 것이 적절해보이지만, 오히려 통계 분석이나 머신 러닝의 맥락에선 편의가 편리함을 의미하는 경우가 현저히 적으며 ‘편향’이라는 말이 너무 쓸모있다보니 ‘편의’로 쓰는 경우가 덜 헷갈린다. 하지만 언급했듯, 보통은 그냥 바이어스라고 한다.편의는 수식 그대로 추정량의 기댓값과 참값과의 차를 나타내며, 분산과는 트레이드 오프 관계가 있어 다음과 같은 제곱 꼴로 자주 쓰인다. $$ \text{MSE} \left( \widehat{\theta} \right) = \text{Var} \left( \widehat{\theta} \right) + \text{Bias} \left( \widehat{\theta} \right)^{2} $$ 편의의 제곱이 크다는 것은 그만큼 추정치가 모수를 정확하게 못 찍어내고 있다는 의미가 된다. 그래서 편의를 제대로 잡지 못하면 아무리 정밀하게 예측을 하더라도 어딘가 빗나간 예측이 될 수 밖에 없다.통계학, 특히 수리통계학에서는 주로 확률을 다루기 때문에 분산을 정확하게 알고 있는 경우가 많고, 편의는 가능한 다루지 않고 싶어한다. 따라서 되도록 편의가 완전히 $0$ 이 되게끔 제어하며, 그렇게 편의가 없는 추정량을 불편추정량이라 부른다.

댓글