logo

유한 모집단 보정 계수 유도 📂수리통계학

유한 모집단 보정 계수 유도

공식

모분산이 $\sigma^{2}$ 인 랜덤샘플 $X_{1} , \cdots , X_{N}$ 이 주어져 있다고 할 때, 전체 샘플에 대한 표본평균 $\overline{X}_{N}$ 의 분산은 $\sigma^{2} / N$ 이다. 그 중 $n \le N$ 개만큼 비복원추출한 표본에 표본평균은 다음과 같은 분산을 가지며, 표준오차 $\text{s.e.} \left( \overline{X}_{n} \right) = \sigma^{2} / n$ 의 제곱항에 곱해진 $\text{FPC} = \left( N - n \right) / \left( N - 1 \right)$ 를 유한 모집단 보정 계수finite population correction factor라고 한다. $$ \Var \left( \overline{X}_{n} \right) = \text{s.e.} \left( \overline{X}_{n} \right) \cdot \text{FPC} = {\frac{ \sigma^{2} }{ n }} \cdot {\frac{ N - n }{ N - 1 }} $$

설명

FPC는 유한 모집단에서 표본을 비복원추출할 때 사용되는 팩터로써, 수식적으로는 $0$ 과 $1$ 사이의 값으로 떨어져 $\overline{X}_{n}$ 의 분산이 너무 과하지 않게 조정해주는 역할을 하는 것으로 볼 수 있다.

이 공식은 크루스칼-월리스 $H$ 검정검정통계량을 유도할 때 사용된다.

유도

수식적으로 더 깔끔한 증명이 있기는 한데1, 그 의미를 제대로 파악하기 위해서는 초기하 분포로 직관적인 유도과정을 보는 게 공부에 더 도움이 된다2.

이항분포의 평균과 분산: $X \sim \text{Bin}(n,p)$ 면 $$ \begin{align*} E(X) =& np \\ \Var(X) =& np(1-p) \end{align*} $$

초기하분포의 평균과 분산 $p = \frac{D}{N}$ 라고 하자. $X \sim \operatorname{HG}(N, D, n)$ 이면 $$ \begin{align*} E \left( X \right) =& n p \\ \Var \left( X \right) =& np(1 - p) \frac{N - n}{N - 1} \end{align*} $$

전체 샘플 중 오직 $n$ 개의 샘플에만 관심이 있고 이들이 어떤 특정한 색으로 마킹되어 있다고 하자. 마킹된 샘플이 뽑힐 확률분포는 샘플링 방법에 따라 달라지는데, $k$번째 샘플이 마킹되어 있다면 $1$ 이고 마킹되어 있지 않다면 $0$ 인 확률변수 $Y_{k} : \Omega \to \left\{ 0 , 1 \right\}$ 들을 생각해보면 그 합인 $Y = \sum_{k=1}^{N} Y_{k}$ 는 복원추출일 이항 분포를 따르고 비복원추출일 때 초기하 분포를 따른다. $$ \overline{X}_{n} = {\frac{ 1 }{ n }} \sum_{k=1}^{N} X_{k} Y_{k} $$ 이항분포의 분산과 초기하분포의 분산을 보면 차이점은 오로지 FPC $(N-n)/(N-1)$ 이 곱해졌느냐는 뿐인데, 이항분포의 분산이 $n p ( p - 1 )$ 이라는 것과 초기하분포의 분산이 $n p ( p - 1 ) (N - n) / (N - 1)$ 이라는 것은 모든 샘플이 $X_{k} = 1$ 일 때의 결과고 이것이 원래의 $X_{k}$ 로 대체되면 FPC와 곱해지는 부분만 $\sigma^{2} / n$ 으로 바뀌면 된다.


  1. P VN, Explanation of finite population correction factor?, URL (version: 2022-10-06): https://stats.stackexchange.com/q/514259 ↩︎

  2. chl, Explanation of finite population correction factor?, URL (version: 2010-12-05): https://stats.stackexchange.com/q/5164 ↩︎