파레토 분포
📂확률분포론파레토 분포
정의

스케일scale 파라미터 x0>0 과 쉐이프shape 파라미터 α>0 에 대해 다음과 같은 확률함수를 가지는 확률분포를 파레토 분포pareto distribution 혹은 멱법칙power Law, 무척도 분포scale-free distribution라 한다.
- 연속형: 상수 ∫x0∞p(x)dx=1 를 만족시키는 상수 C 에 대해
p(x)=Cx−α,x>x0
- 이산형: 리만 제타 함수 ζ 에 대해
pk=ζ(α)1k−α,k∈N
기초 성질
- [1] 적률 생성 함수: 파레토 분포의 적률생성함수는 존재하지 않는다.
- [2] 평균과 분산: X∼Pareto(x0,α) 면
E(X)=Var(X)=α−2α−1x0(α−2)2(α−3)(α−1)x02,α>2,α>3
정리
- [a] 무척도성: 파레토 분포는 유일한 무척도분포scale-free distribution다. 다시 말해, 모든 b 에 어떤 상수 α 가 존재해서 다음이 성립한다.
p(bx)=g(b)p(x)⟹p(x)=p(1)x−α
- [b] k차 적률: 0<k<α−1 이면 X∼Pareto(x0,α) 는 k차 적률이 존재하고
EXk=α−1−kα−1x0k
설명
파레토 분포는 이 현실세계에 만연한 불평등을 설명하는 대표적인 분포로써, 다음과 같은 개념들과 매우 밀접한 관계가 있다.
- 힙스의 법칙과 지프의 법칙: 어휘의 빈도에 관한 경험법칙이다.
- 책 판매량
- 통신량
- 지진 강도
- 크레이터의 지름
- 재산
- 인용수
확률밀도함수의 모양을 보면 쉐이프 α 가 크면 클수록 불평등이 극심해지는 것을 직관적으로 파악할 수 있다. 경제 상황으로 말할것 같으면, 재벌은 돈이 한도 끝도 없고 가난한 사람은 넘쳐나는 것이다.
파레토 분포가 무척도성을 가진다고 하는 이야기는 말 그대로 스케일이 없다는 것이다. 가령 푸아송분포를 따르는 두 확률 변수의 모수가 λ1=10, λ2=1000 이라고 하면 이들은 어떤 곳을 보는지에 따라 큰 차이가 있지만, 파레토 분포는 어디를 보든 본질적으로 차이가 없기 때문이다. 수식적으로는 b 가 어떤 값으로 주어지든 결론이 똑같은 것에 해당한다.
증명
[1]
확률 변수의 적률 생성 함수가 존재한다는 것은 모든 k∈N 에 대해 k차 적률이 존재한다는 것이다. 그러나 정리 [2]에서 파레토 분포의 1차 적률은 α>1 일 때만 존재하므로 적률 생성 함수가 존재할 수 없다.
■
[2]
전략: 적률 공식 [b]를 이용한다.
EX1==α−1−1α−1x01α−2α−1x01
이고, EX2=α−3α−1x02 이므로
VarX====α−3α−1x02−[α−2α−1x01]2[α−31−(α−2)2α−1](α−1)x02[α2−4α+4−α2+4α−3](α−3)(α−2)2(α−1)x02(α−2)2(α−3)(α−1)x02
■
[a]
모든 b 에 대해 어떤 함수 g 가 존재해서
p(bx)=g(b)p(x)
가 성립한다고 가정하자. 여기에 x=1 을 대입해보면 p(b)=g(b)p(1) 이므로, g(b)=p(b)/p(1) 이고
p(bx)=p(1)p(b)p(x)
이다. 이를 b 에 대해 미분해보면
xp′(bx)=p(1)p′(b)p(x)
이다. b=1 를 대입해보면 로그함수의 미분법을 이용한 트릭에 따라
⟹⟹⟹xp′(x)=p(1)p′(1)p(x)p(x)p′(x)=p(1)p′(1)⋅x1dxdlogp(x)=p(1)p′(1)⋅x1dlogp(x)=p(1)p′(1)x1dx
이는 간단한 분리가능 1계 미분방정식으로, 어떤 상수 constant 에 대해 다음을 얻는다.
logp(x)=p(1)p′(1)logx+constant
x=1 을 대입해보면 constant=logp(1) 임을 알 수 있다. α:=−p(1)p′(1) 이라 정의하면 우리가 원하던 다음의 식을 얻는다.
⟹⟹⟹logp(x)=−αlogx+logp(1)logp(x)=logx−α+logp(1)logp(x)=logx−αp(1)p(x)=p(1)x−α
■
[b]
0<α−1 이므로 ∫x0∞Cx−αdx=1 에서 C=(α−1)x0α−1 을 얻는다. 따라서
EXk=====∫x0∞xkCx−αdxC∫x0∞xk−αdx(α−1)x0α−1[k−α+11xk−α+1]x0∞(α−1)x0α−1(0−k−α+11x0k−α+1)α−1−kα−1x0k
■
시각화
다음은 파레토분포의 확률밀도함수를 움짤로 보여주는 줄리아 코드다.
@time using LaTeXStrings
@time using Distributions
@time using Plots
cd(@__DIR__)
x = 1:0.1:10
A = collect(0.5:0.01:3.5); append!(A, reverse(A))
animation = @animate for α ∈ A
plot(x, pdf.(Pareto(α), x),
color = :black,
label = "α = $(round(α, digits = 2))", size = (400,300))
xlims!(0,5); ylims!(0,4); title!(L"\mathrm{pdf\,of\,Pareto}(\alpha)")
end
gif(animation, "pdf.gif")