샘플링, 복원추출과 비복원추출
정의
- 표본sample을 뽑는 행위를 샘플링sampling 혹은 더 간단히 추출이라 한다.
- 샘플링 과정 중 이미 뽑힌 표본을 모집단에 다시 넣는 것을 복원replacement이라 한다.
- 복원을 하는 샘플링을 복원추출sampling with replacement이라 한다.
- 복원을 하지 않는 샘플링을 비복원추출sampling without replacement이라 한다.
설명
수리통계학에서 말하는 표본은 확률변수로써 정의되며 그것이 실제로 얻은 것을 실현realization이라 구분하지만, 이러한 이론적 엄밀성이 요구되지 않는 경우 통계학을 비롯한 데이터 과학 전반에서는 데이터를 얻는 것 자체를 샘플링이라 부를 수도 있다.
비복원추출이 훨씬 복잡하다
통계학의 많은 이론에서 샘플은 복원추출을 통해서 얻어진다고 가정하는데, 이는 그렇게 얻은 데이터가 iid로 얻어졌음을 의미하기 때문이다. 이러한 컨셉을 모르는 사람이 보기엔 이미 뽑은 걸 다시 모집단에 집어넣었으니 데이터가 오염된다거나 조작된 것 같다고 느낄 수 있는데, 수식적으로 파고들어가보면 사실 복원추출이야말로 순서나 관계가 없고 무작위적인 샘플링에 가깝다.
비복원추출의 경우 어떤 표본이 뽑히는 것이 확정된 순간 두 번 다시 뽑힐 수 없는데, 두 사건이 서로 배반이면 서로 종속이라는 것―다시 말해 독립이라는 편리한 가정을 할 수가 없다. 실제로 이 때문에 비복원추출을 동반할 수밖에 없는 비모수 통계학 등에서는 확률변수 간의 관계가 서로 물고 물려서 이론적인 전개가 매우 복잡해진다.