심플 네트워크의 링크가 각각 독립적으로 확률 p∈[0,1] 에 따라 연결되는 랜덤 네트워크를 길버트 모델gilbert modelGn,p 라 한다.
어려운 정의
확률 공간(Ω,F,P) 이 주어져 있고, n 개의 라벨링 된labeled 노드를 가진 네트워크의 프로퍼티2(2n)⊆2(2n) 가 주어져 있다고 하자. 링크의 수 0≤m≤(2n) 에 대해 다음의 확률질량함수를 가지는 F-가측 함수 Gn,p:Ω→2(2n) 를 길버트 모델이라 한다.
P(Gn,p=G)=pm(1−p)(2n)−m,∀G∈Gn,m⊂2(2n)
설명
길버트 모델은 에르되시-레니 모델 (ER 모델)과 더불어 정말 많은 문헌에서 언급되나 말만 ER 모델이고 실제로는 길버트 모델을 사용하는 경우가 아주, 아주 많다. 두 모델의 차이점이 없는 것은 아니다. 아니 사실 파고들어보면 아예 두꺼운 책 한권이 나올 정도로 다른 모델이지만, 특히 응용 네트워크 이론의 맥락에선 이 둘을 구분하지 않고 ER 모델로 퉁치는 경향이 극심하다. 잘 쓰는 표현은 아니지만, 확률분포가 이항분포이라는 센스에서 이항 랜덤 네트워크binomial Random Network라 부를 수도 있다.
Gn,p 는 대략 m=(2n)p≈2n2p 개만큼의 링크를 가지고 있을 것으로 기대된다. ER 모델이 얄짤없이 정확히 m 개의 링크를 가진 것과 달리 길버트 모델은 네트워크의 덩치에 계수 p 로 정비례할 뿐 링크의 수가 정해져 있지는 않다.
정의는 어렵게 적어놨으니 어려워 보이지만 알고리즘을 읽어보면 사실 간단하다. 길버트 모델로 네트워크를 샘플링하는 알고리즘은 다음과 같다.
for i=1,⋯,n for j=1,⋯,n if i=j p 의 확률로 다음과 같이 네트워크 G 에 링크 ij 를 추가한다.G←G+ij
Output
노드가 n 개고 링크가 m≈n2p/2 개 정도 있는 심플 그래프 G∈2(2n) 를 얻는다.
성질
[1]: 길버트 모델Gn,p 에서 샘플링한 네트워크의 링크 수가 정확히 m 이어야하면 Gn,m 에서 샘플링한 것과 같다.
[2] 차수의 분포: λ=np 면 n→∞ 일 때 각 노드의 차수는 푸아송분포Poi(np) 로 분포수렴한다.
P(degv=k)→k!e−λλk,λ≈np
증명
[1]
에르되시-레니 모델: 다음과 같은 확률 질량 함수를 가지는 랜덤 그래프를 에르되시-레니 그래프erdős–Rényi graphGn,m 이라 한다.
P(Gn,m=G)=(m(2n))−1,∀G∈Gn,m
Claim: 임의의 G0∈Gn,m 를 생각했을 때 다음을 보이면 된다.
P(Gn,p=G0∣Gn,p∈Gn,m)=(m(2n))−1
당연하지만 Gn,p 가 정확히 G0 인 것보다는 Gn,p∈Gn,m 일 가능성, 그러니까 길버트 모델로 샘플링했는데 링크가 다 합쳐서 m 개일 가능성이 더 크다. 이를 사건으로 나타내보면
{Gn,p=G0}⟹{Gn,p=G0}⊂{Gn,p∈Gn,m}∩{Gn,p∈Gn,m}={Gn,p=G0}⋯(⋆)
이다. 여기서 각각의 확률을 계산해보면 P(Gn,p=G0)=pm(1−p)(2n)−m 이므로
===P(Gn,p∈Gn,m)PG∈Gn,m⋃{Gn,p=G}G∈Gn,m∑P(Gn,p=G)(m(2n))pm(1−p)(2n)−m
이다. 이제 조건부 확률을 계산해보면
P(Gn,p=G0∣Gn,p∈Gn,m)====P(Gn,p∈Gn,m)P(Gn,p=G0∧Gn,p∈Gn,m)P(Gn,p∈Gn,m)P(Gn,p=G0)(m(2n))pm(1−p)(2n)−mpm(1−p)(2n)−m(m(2n))−1∵(⋆)
을 보일 수 있다. 여기서 ∧ 는 논리곱이다.
[2]
n 개의 노드를 가지고 각 노드가 연결될 확률 p 가 주어져 있고 노드의 차수는 나머지 (n−1) 개의 다른 노드와 연결되었느냐 연결되지 않느냐에 달려 있으므로, 이항분포B(n−1,p) 를 따르게 된다. 수식으로 깔끔하게 적어보면 다음과 같다.
P(degv=k)=(kn−1)pk(1−p)n−1−k