logo

サンプリング、復元抽出および非復元抽出 📂機械学習

サンプリング、復元抽出および非復元抽出

定義

  1. 標本sampleを抽出する行為を サンプリングsampling またはより簡単に 抽出 と呼ぶ。
  2. サンプリング過程中に既に取り出した標本を母集団に戻すことを 復元replacement と呼ぶ。
  3. 復元を行うサンプリングを 復元抽出sampling with replacement と呼ぶ。
  4. 復元を行わないサンプリングを 非復元抽出sampling without replacement と呼ぶ。

説明

数理統計学でいう標本確率変数として定義され、それが実際に得られたものを実現realizationと区別するが、こうした理論的な厳密性が要求されない場合は、統計学をはじめデータサイエンス全般でデータを得る行為自体をサンプリングと呼ぶこともある。

非復元抽出ははるかに複雑だ

統計学の多くの理論では標本は復元抽出によって得られると仮定する。これはそのように得られたデータがiidであることを意味するからだ。こうした概念を知らない者には、一度取り出したものを再び母集団に戻すとデータが汚染されるとか操作されたように感じられるかもしれないが、数式的に掘り下げると、むしろ復元抽出こそ順序や関係がなく無作為なサンプリングに近い。

非復元抽出の場合、ある標本が選ばれるとその瞬間に二度と選ばれ得ない。二つの事象が互いに排反であるなら互いに従属―つまり独立という便利な仮定は使えない。実際、このため非復元抽出を伴わざるを得ないノンパラメトリック統計学などでは確率変数間の関係が互いに依存し合い、理論的な展開が非常に複雑になる。