確率論におけるヘビーテイル分布とロングテール分布
定義 1
確率変数 $X$ が 累積分布関数 $F = F(x)$ を持つとしよう。便宜上このポストでは $X$ は右側の裾を持ち、確率密度関数 $f$ を持つと仮定する。
分布の尾部
次のように定義される $\overline{F}$ を $F$ の 尾部特性tail propertyと呼ぶ。ここで $(x, \infty)$ は区間であり、$f \left( x, \infty \right)$ は区間のレンジに対応する。定義によれば、$\overline{F}$ は非減少関数である。 $$ \overline{F} (x) := F \left( x , \infty \right) = P (X > x) $$ 任意の $x_{0}$ について集合 $\left\{ \overline{F}(x) : x \ge x_{0} \right\}$ のみに依存する $F$ の性質を 尾部特性tail propertyと呼ぶ。
ヘビーテール
すべての $\lambda > 0$ に対して次を満たすならば $X$ はヘビーテールheavy-tailed分布に従うとする。 $$ \int_{-\infty}^{\infty} e^{\lambda x} f(x) dx = \infty $$
ロングテール
任意の $\delta > 0$ に対して次を満たすならば $X$ はロングテールlong-tailed分布に従うとする。 $$ \lim_{x \to \infty} {\frac{ \overline{F} \left( x + \delta \right) }{ \overline{F} (x) }} = 1 $$
説明
ヘビーテールであれロングテールであれ、応用数学においてこのように裾が顕著な分布が重要なのは、「異常に大きい」といった事象が発生する確率が決して低くない場合があるからだ。たとえばパレート分布、コーシー分布、対数正規分布、ウェイブル分布などはヘビーテール性を持ち得るが、これらはいずれも巨大なスケールでいわゆる「外れ値」が出現する確率が無視できないほど大きい。
ヘビーテールの定義は、その式自体から $f(x)$ が $e^{\lambda x}$ を抑えきれずに最終的に発散する、と見なせる。もう少し噛み砕いて言えば、$f$ の減少速度が指数的ではない程度に緩やかであるため、裾が太いという意味になる。
ロングテールの定義も同様で、$x$ が大きくなるほど裾がどんどん短くなる傾向があれば収束しやすいが、どれだけ後方を見ても持ちこたえるということ自体が裾が長いという意味になる。ロングテール分布はまたヘビーテール分布でもある。
Foss, S., Korshunov, D., & Zachary, S. (2011). An introduction to heavy-tailed and subexponential distributions (Vol. 6, pp. 0090-6778). New York: Springer. https://www.math.u-szeged.hu/~kevei/tanitas/irodalom/Foss%20Korshunov%20Zachary%20An%20intro%20to%20heavy%20tailed%20and%20subexp%20dist.pdf ↩︎
