logo

파레토 분포 📂확률분포론

파레토 분포

정의 1

pdf.gif

스케일scale 파라미터 x0>0x_{0} > 0 과 쉐이프shape 파라미터 α>0\alpha > 0 에 대해 다음과 같은 확률함수를 가지는 확률분포파레토 분포pareto distribution 혹은 멱법칙power Law, 무척도 분포scale-free distribution라 한다.

  1. 연속형: 상수 x0p(x)dx=1\displaystyle \int_{x_{0}}^{\infty} p(x) dx = 1 를 만족시키는 상수 CC 에 대해 p(x)=Cxα,x>x0 p(x) = C x^{-\alpha} \qquad , x > x_{0}
  2. 이산형: 리만 제타 함수 ζ\zeta 에 대해 pk=1ζ(α)kα,kN p_{k} = {{ 1 } \over { \zeta (\alpha) }} k^{-\alpha} \qquad , k \in \mathbb{N}

기초 성질

  • [1] 적률 생성 함수: 파레토 분포적률생성함수는 존재하지 않는다.
  • [2] 평균과 분산: XPareto(x0,α)X \sim \text{Pareto} \left( x_{0}, \alpha \right)E(X)=α1α2x0,α>2Var(X)=(α1)(α2)2(α3)x02,α>3 \begin{align*} E (X) =& {{ \alpha - 1 } \over { \alpha - 2 }} x_{0} & , \alpha > 2 \\ \Var (X) =& {{ (\alpha - 1) } \over { \left( \alpha -2 \right)^{2} (\alpha - 3) }} x_{0}^{2} & , \alpha > 3 \end{align*}

정리

  • [a] 무척도성: 파레토 분포는 유일한 무척도분포scale-free distribution다. 다시 말해, 모든 bb 에 어떤 상수 α\alpha 가 존재해서 다음이 성립한다. p(bx)=g(b)p(x)    p(x)=p(1)xα p(bx) = g(b) p(x) \implies p(x) = p(1) x^{-\alpha}
  • [b] kk적률: 0<k<α10 < k < \alpha - 1 이면 XPareto(x0,α)X \sim \text{Pareto} \left( x_{0} , \alpha \right)kk차 적률이 존재하고 EXk=α1α1kx0k E X^{k} = {{ \alpha - 1 } \over { \alpha - 1 - k }} x_{0}^{k}

설명

파레토 분포는 이 현실세계에 만연한 불평등을 설명하는 대표적인 분포로써, 다음과 같은 개념들과 매우 밀접한 관계가 있다.

확률밀도함수의 모양을 보면 쉐이프 α\alpha 가 크면 클수록 불평등이 극심해지는 것을 직관적으로 파악할 수 있다. 경제 상황으로 말할것 같으면, 재벌은 돈이 한도 끝도 없고 가난한 사람은 넘쳐나는 것이다.

파레토 분포가 무척도성을 가진다고 하는 이야기는 말 그대로 스케일이 없다는 것이다. 가령 푸아송분포를 따르는 두 확률 변수의 모수가 λ1=10\lambda_{1} = 10, λ2=1000\lambda_{2} = 1000 이라고 하면 이들은 어떤 곳을 보는지에 따라 큰 차이가 있지만, 파레토 분포는 어디를 보든 본질적으로 차이가 없기 때문이다. 수식적으로는 bb 가 어떤 값으로 주어지든 결론이 똑같은 것에 해당한다.

증명

[1]

확률 변수의 적률 생성 함수가 존재한다는 것은 모든 kNk \in \mathbb{N} 에 대해 kk차 적률이 존재한다는 것이다. 그러나 정리 [2]에서 파레토 분포11차 적률은 α>1\alpha > 1 일 때만 존재하므로 적률 생성 함수가 존재할 수 없다.

[2]

전략: 적률 공식 [b]를 이용한다.


EX1=α1α11x01=α1α2x01 \begin{align*} EX^{1} =& {{ \alpha - 1 } \over { \alpha - 1 - 1 }} x_{0}^{1} \\ =& {{ \alpha - 1 } \over { \alpha - 2 }} x_{0}^{1} \end{align*} 이고, EX2=α1α3x02\displaystyle EX^{2} = {{ \alpha - 1 } \over { \alpha - 3 }} x_{0}^{2} 이므로 VarX=α1α3x02[α1α2x01]2=[1α3α1(α2)2](α1)x02=[α24α+4α2+4α3](α1)(α3)(α2)2x02=(α1)(α2)2(α3)x02 \begin{align*} \Var X =& {{ \alpha - 1 } \over { \alpha - 3 }} x_{0}^{2} - \left[ {{ \alpha - 1 } \over { \alpha - 2 }} x_{0}^{1} \right]^{2} \\ =& \left[ {{ 1 } \over { \alpha - 3 }} - {{ \alpha - 1 } \over { \left( \alpha - 2 \right)^{2} }} \right] (\alpha - 1) x_{0}^{2} \\ =& \left[ \alpha^{2} - 4 \alpha + 4 - \alpha^{2} + 4 \alpha - 3 \right] {{ (\alpha - 1) } \over { (\alpha - 3) \left( \alpha -2 \right)^{2} }} x_{0}^{2} \\ =& {{ (\alpha - 1) } \over { \left( \alpha -2 \right)^{2} (\alpha - 3) }} x_{0}^{2} \end{align*}

[a]

모든 bb 에 대해 어떤 함수 gg 가 존재해서 p(bx)=g(b)p(x) p(bx) = g(b) p(x) 가 성립한다고 가정하자. 여기에 x=1x = 1 을 대입해보면 p(b)=g(b)p(1)p(b) = g(b) p(1) 이므로, g(b)=p(b)/p(1)g(b) = p(b) / p(1) 이고 p(bx)=p(b)p(x)p(1) p(bx) = {{ p(b) p(x) } \over { p(1) }} 이다. 이를 bb 에 대해 미분해보면 xp(bx)=p(b)p(x)p(1) x p '(bx) = {{ p ' (b) p(x) } \over { p(1) }} 이다. b=1b=1 를 대입해보면 로그함수의 미분법을 이용한 트릭에 따라2 xp(x)=p(1)p(x)p(1)    p(x)p(x)=p(1)p(1)1x    dlogp(x)dx=p(1)p(1)1x    dlogp(x)=p(1)p(1)1xdx \begin{align*} & x p '(x) = {{ p ' (1) p(x) } \over { p(1) }} \\ \implies & {{ p '(x) } \over { p(x) }} = {{ p '(1) } \over { p(1) }} \cdot {{ 1 } \over { x }} \\ \implies & {{ d \log p(x) } \over { dx }} = {{ p '(1) } \over { p(1) }} \cdot {{ 1 } \over { x }} \\ \implies & d \log p(x) = {{ p '(1) } \over { p(1) }} {{ 1 } \over { x }} dx \end{align*} 이는 간단한 분리가능 1계 미분방정식으로, 어떤 상수 constant\text{constant} 에 대해 다음을 얻는다. logp(x)=p(1)p(1)logx+constant \log p(x) = {{ p '(1) } \over { p(1) }} \log x + \text{constant} x=1x = 1 을 대입해보면 constant=logp(1)\text{constant} = \log p(1) 임을 알 수 있다. α:=p(1)p(1)\displaystyle \alpha := - {{ p '(1) } \over { p(1) }} 이라 정의하면 우리가 원하던 다음의 식을 얻는다. logp(x)=αlogx+logp(1)    logp(x)=logxα+logp(1)    logp(x)=logxαp(1)    p(x)=p(1)xα \begin{align*} & \log p(x) = - \alpha \log x + \log p(1) \\ \implies & \log p(x) = \log x^{-\alpha} + \log p(1) \\ \implies & \log p(x) = \log x^{-\alpha} p(1) \\ \implies & p(x) = p(1) x^{-\alpha} \end{align*}

[b]

0<α10 < \alpha -1 이므로 x0Cxαdx=1\displaystyle \int_{x_{0}}^{\infty} C x^{-\alpha} dx = 1 에서 C=(α1)x0α1C = \left( \alpha - 1 \right) x_{0}^{\alpha - 1} 을 얻는다. 따라서 EXk=x0xkCxαdx=Cx0xkαdx=(α1)x0α1[1kα+1xkα+1]x0=(α1)x0α1(01kα+1x0kα+1)=α1α1kx0k \begin{align*} E X^{k} =& \int_{x_{0}}^{\infty} x^{k} C x^{-\alpha} dx \\ =& C \int_{x_{0}}^{\infty} x^{k-\alpha} dx \\ =& \left( \alpha - 1 \right) x_{0}^{\alpha - 1} \left[ {{ 1 } \over { k - \alpha + 1 }} x^{k - \alpha + 1} \right]_{x_{0}}^{\infty} \\ =& \left( \alpha - 1 \right) x_{0}^{\alpha - 1} \left( 0 - {{ 1 } \over { k - \alpha + 1 }} x_{0}^{k - \alpha + 1} \right) \\ =& {{ \alpha - 1 } \over { \alpha - 1 - k }} x_{0}^{k} \end{align*}

시각화

다음은 파레토분포의 확률밀도함수를 움짤로 보여주는 줄리아 코드다.

@time using LaTeXStrings
@time using Distributions
@time using Plots

cd(@__DIR__)

x = 1:0.1:10
A = collect(0.5:0.01:3.5); append!(A, reverse(A))

animation = @animate for α ∈ A
    plot(x, pdf.(Pareto(α), x),
     color = :black,
     label = "α = $(round(α, digits = 2))", size = (400,300))
    xlims!(0,5); ylims!(0,4); title!(L"\mathrm{pdf\,of\,Pareto}(\alpha)")
end
gif(animation, "pdf.gif")

  1. Newman. (2005). Power laws, Pareto distributions and Zipf’s law. https://doi.org/10.1080/00107510500052444 ↩︎

  2. https://math.stackexchange.com/a/391311 ↩︎