logo

확률론에서 헤비테일 분포와 롱테일 분포 📂수리통계학

확률론에서 헤비테일 분포와 롱테일 분포

정의 1

확률변수 $X$ 가 누적분포함수 $F = F(x)$ 를 가진다고 하자. 편의상 이 포스트에서 $X$ 는 오른쪽 꼬리를 가지며 확률밀도함수 $f$ 를 가진다고 가정한다.

분포의 꼬리

다음과 같이 정의되는 $\overline{F}$ 를 $F$ 의 꼬리tail라 한다. 여기서 $(x, \infty)$ 는 구간이고, $f \left( x, \infty \right)$ 는 구간의 레인지에 해당한다. 정의에 따라, $\overline{F}$ 는 감소하지 않는 함수다. $$ \overline{F} (x) := F \left( x , \infty \right) = P (X > x) $$ 아무 $x_{0}$ 에 대해 집합 $\left\{ \overline{F}(x) : x \ge x_{0} \right\}$ 에만 의존하는 $F$ 의 성질을 꼬리 성질tail property이라 한다.

헤비테일

모든 $\lambda > 0$ 에 대해 다음을 만족하면 $X$ 가 헤비테일heavy-tailed 분포를 따른다고 한다. $$ \int_{-\infty}^{\infty} e^{\lambda x} f(x) dx = \infty $$

롱테일

아무 $\delta > 0$ 에 대해 다음을 만족하면 $X$ 가 롱테일long-tailed 분포를 따른다고 한다. $$ \lim_{x \to \infty} {\frac{ \overline{F} \left( x + \delta \right) }{ \overline{F} (x) }} = 1 $$

설명

헤비테일이든 롱테일이든, 응용수학에 있어서 이렇듯 꼬리가 두드러진 분포가 중요한 이유는 ‘이상할 정도로 큰’ 등의 사건이 일어날 확률이 예사롭지 않은 경우가 있기 때문이다. 예를 들어 파레토 분포, 코시분포, 로그-정규분포, 베이불 분포 등이 헤비테일 성질을 가질 수 있는데, 이들 모두 거대한 스케일에서 소위 말하는 ‘튀는 데이터’가 나올 확률이 무시할 수 없을 정도로 크다.

헤비테일의 정의는 그 수식 그 자체에서 $f(x)$ 가 $e^{\lambda x}$ 를 압도하지 못해 기어코 발산하는 것으로 보면 되고, 한번만 더 풀어서 설명하자면 $f$ 가 감소하는 속가 지수적이지 않을 정도로 꼬리가 두껍다는 의미가 된다.

롱테일의 정의 역시 마찬가지인데, $x$ 가 크면 클수록 꼬리가 점점 더 짧아지는 경향이 있어야 수렴하기 편할텐데 아무리 뒤로 가도 계속 버티는 것 자체가 꼬리가 길다는 의미가 된다. 롱테일 분포는 또한 헤비테일 분포기도 하다.


  1. Foss, S., Korshunov, D., & Zachary, S. (2011). An introduction to heavy-tailed and subexponential distributions (Vol. 6, pp. 0090-6778). New York: Springer. https://www.math.u-szeged.hu/~kevei/tanitas/irodalom/Foss%20Korshunov%20Zachary%20An%20intro%20to%20heavy%20tailed%20and%20subexp%20dist.pdf ↩︎