초기하 분포
정의 1
자연수 $n, N, D \in \mathbb{N}$ 에 대해 다음과 같은 확률질량함수를 가지는 이산확률분포를 초기하 분포hypergeometric distribution라고 한다. $$ p(x) = {\frac{ \binom{D}{x} \binom{N - D}{n - x} }{ \binom{N}{n} }} \qquad , x \in 0, 1, \cdots , n $$ 여기서 $\binom{N}{n} = _{N} C _{n}$ 는 이항계수다.
설명
흔히 초기하 분포에서 $N$ 은 전체 모집단의 크기, $n$ 은 샘플의 크기, $D$ 는 모집단에서 관심 있는 아이템의 수를 의미한다. 가령 다음과 같이 길이가 $N$ 인 리스트가 $D$ 개의 $1$ 과 $N - D$ 개의 $0$ 으로 이루어져 있다고 하자. $$ \left( 0 , 0, 1, \cdots , 1, 0, 1 \right) $$ 이 리스트에서 $n$ 개의 아이템을 비복원추출할 때, 그 합계인 확률변수 $X$ 는 초기하 분포를 따른다.
샘플링의 관점에서 초기하 분포와 대비되는 분포는 이항분포인데, ‘앞면이 나올 확률이 $p$ 인 코인을 $n$ 번 토스해서 앞면의 수를 세는 것’을 이항분포라고 한다면 ‘앞면이 나왔더라도 또 앞면이 나올 수 있다’는 점에서 복원추출이 되는 것이다. 반면 비복원추출에서는 이미 뽑힌 아이템이 다시 뽑히지 않기 때문에 이항분포와는 또다른 확률분포인 초기하 분포가 필요하다.
우선 길이가 $N$ 인 리스트에서 $n$ 개의 아이템을 뽑는 경우의 수는 $_{N} C _{n}$ 이다. $D$ 개의 $1$ 중에서 $x$ 개를 뽑는 경우의 수는 $_{D} C _{x}$ 이고, $N - D$ 개의 $0$ 중에서 $n - x$ 개를 뽑는 경우의 수는 $_{N - D} C _{n - x}$ 이다. 다시 말해, $x$ 개의 $1$ 이 $D$ 개 중에서 뽑히고, $n - x$ 개의 $0$ 이 $N - D$ 개 중에서 뽑히는 확률은 다음과 같이 초기하 분포의 확률질량함수 그 자체로 나타난다. $$ p(x) = {\frac{ 1 }{ \underbrace{\binom{N}{n}}_{\text{total}} }} \overbrace{\binom{D}{x}}^{\text{number of } 1} \cdot \underbrace{\binom{N - D}{n - x}}_{\text{number of } 0} $$
이항분포의 평균과 분산: $X \sim \text{Bin}(n,p)$ 면 $$ \begin{align*} E(X) =& np \\ \Var(X) =& np(1-p) \end{align*} $$
실제로 $p = \frac{D}{N}$ 라고 두었을 때 이항분포와 평균 분산을 비교해보면 다른 건 모두 비슷한데 분산에만 $\frac{N - n}{N - 1}$ 이라는 팩터가 곱해지는 것을 알 수 있다.
기초 성질
평균과 분산
$p = \frac{D}{N}$ 라고 하자. $X \sim \operatorname{HG}(N, D, n)$ 이면 $$ \begin{align*} E \left( X \right) =& n \frac{D}{N} = n p \\ \Var \left( X \right) =& n {\frac{ D }{ N }} {\frac{ N - D }{ N }} {\frac{ N - n }{ N - 1 }} = np(1 - p) \frac{N - n}{N - 1} \end{align*} $$
Hogg et al. (2018). Introduction to Mathematical Statistcs(8th Edition): p162. ↩︎