logo

통계학에서의 실험 설계 📂통계적검정

통계학에서의 실험 설계

정의 1

측정이나 관측이 일어나는 대상을 실험 단위experimental unit라 한다.

  1. 실험자에 의해 통제되고 변하는 독립변수인자factor라 한다.
  2. 인자를 세팅하는 강도를 수준level이라 한다.
  3. 인자들의 수준의 조합을 처리treatment라 한다.
  4. 실험자에 의해 측정되는 종속변수반응response이라 한다.

완전랜덤화설계 2

kk 개의 처리에서 각각 독립적으로 표본이 선택되는 실험 설계를 완전랜덤화설계completely randomized design라 한다.

랜덤화블럭설계 3

kk 개의 처리를 각각 bb 개의 블럭으로 나누어 표본이 선택되는 실험 설계를 랜덤화블럭설계randomized block design라 한다.

설명

완전랜덤화설계의 예로써 혈당강하제 A의 투여량에 따른 효과를 조사하기 위해 13명의 환자를 대상으로 실험을 진행한다고 해보자. 이 때 실험 단위는 환자, 인자는 혈당강하제, 수준 및 처리는 투여량, 반응 투여 후 측정된 혈당이다.

10mg20mg30mg
899179
929781
988788
9975
94

이처럼 완전랜덤화설계로 얻은 데이터가 반드시 모든 처리에서 같은 수의 표본을 가지고 있을 필요는 없다. 단 이 예시는 인자와 수준이 어떻게 다른지 설명하긴 좋지만 수준과 처리가 어떻게 다른지는 이해하기 어려웠다. 이제 여기서 8명의 환자를 추가해 컨트롤 그룹(투여를 받지 않는 집단)과 플라시보 그룹(투여를 받는 것처럼 보이지만 실제로는 투여를 받지 않는 집단)을 추가해보자.

ctrlplcb10mg20mg30mg
9171899179
8998929781
8881988788
919975
9794

여기서 컨트롤 그룹과 플라시보 그룹은 혈압강하제의 투여량이라는 수준에서는 동일하게 0mg이지만, 처리를 생각해보면 혈압강하제를 주었느냐 아예 주지 않았느냐라는 인자 단위의 조건이 포함되어서 구분된다. 결과적으로 데이터의 칼럼은 실험 설계의 처리와 같다.

랜덤화블럭설계는 실험 단위의 편차를 해소하기 위해 사용된다. 예를 들어 A, B, C 세 가지 공법을 통해 가벼운 나사를 만드는 공장이 있고 직원이 네 명 있다고 할 때, 공법은 같더라도 직원 사이의 숙련도가 달라 공법을 정확히 비교하기 어려울 수 있다. 이 때 모든 직원이 모든 공법을 사용해서 나사를 만들어보면 공법의 효과와 직원의 숙련도를 동시에 비교할 수 있다.

\ABC
12.72.41.5
22.41.51.2
32.51.81.7
41.61.71.9

여기서 실험 단위는 작업, 인자는 공법, 수준은 A, B, C, 처리는 특정 공법을 사용하는 특정 직원, 반응은 나사의 무게고 블럭은 직원 그 자체에 해당한다.


  1. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p448. ↩︎

  2. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p450. ↩︎

  3. Mendenhall. (2012). Introduction to Probability and Statistics (13th Edition): p467. ↩︎