数理統計学における多変量確率分布
定義 1
- 標本空間 $\Omega$で定義された$n$個の確率変数 $X_{i}$に対し$X = (X_{1} , \cdots , X_{n})$を$n$次元ランダムベクトルrandom Vectorという。$X$の値域$X(\Omega)$を空間とも呼ぶ。
- 次のを満たす関数$F_{X} : \mathbb{R}^{n} \to [0,1]$を$X$のジョイントjoint累積分布関数という。 $$ F_{X}\left( x_{1}, \cdots , x_{n} \right) := P \left[ X_{1} \le x_{1} , \cdots , X_{n} \le x_{n} \right] $$
- ある$h_{1} , \cdots , h_{n} >0$に対し、次のを満たす関数$M_{X}$が存在するなら、$X$の積率生成関数という。 $$ M_{X} (t_{1}, \cdots , t_{n}) := E \left[ e^{\sum_{k=1}^{n} t_{k} X_{k} } \right] = E \left[ \prod_{k=1}^{n} e^{t_{k} X_{k}} \right] \\ |t_{1}| < h_{1} , \cdots , |t_{n} | < h_{n} $$
離散
- D1: $X$の空間が可算集合なら、$X$は離散ランダムベクトルという。
- D2: 次を満たす$p_{X} : \mathbb{R}^{n} \to [0,1]$を離散ランダムベクトル$X$のジョイント確率質量関数という。 $$ p_{X} (x_{1} , \cdots , x_{n}) := P \left[ X_{1} = x_{1} , \cdots , X_{n} = x_{n} \right] $$
- D3: $1 \le k \le n$に対し、次のような$P_{X_{k}} (x_{k})$をマージナル確率質量関数という。 $$ P_{X_{k}} (x_{k}) := \sum_{x_{1}} \cdots \sum_{x_{k-1}}\sum_{x_{k+1}} \cdots \sum_{x_{n}} p_{X} (x_{1} , \cdots , x_{n}) $$
- D4: $S_{X}:= \left\{ \mathbf{x} \in \mathbb{R}^{n} : p_{X}(\mathbf{x}) > 0 \right\}$を$X$のサポートという。
連続
- C1: 確率変数$X$の累積分布関数$F_{X} = F_{X_{1} , \cdots , X_{n}}$が全ての$\mathbf{x} \in \mathbb{R}^{n}$で連続なら、$X$は連続ランダムベクトルという。
- C2: 次を満たす$f_{X} : \mathbb{R}^{n} \to [0,\infty)$を、連続ランダムベクトル$X$のジョイント確率密度関数という。 $$ F_{X} (x_{1}, \cdots, x_{n}) = \int_{-\infty}^{x_{1}} \cdots \int_{-\infty}^{x_{n}} f_{\mathbf{x}} (t_{1} , \cdots , t_{n}) dt_{1} \cdots d t_{n} $$
- C3: $1 \le k \le n$に対し、次のような$f_{X_{k}} (t_{k})$をマージナル確率密度関数という。 $$ f_{X_{k}}(t_{k}) := \int_{\infty}^{x_{1}} \cdots \int_{\infty}^{x_{k-1}} \int_{\infty}^{x_{k+1}} \cdots \int_{\infty}^{x_{n}} f_{X}(t_{1} , \cdots , t_{n}) dt_{1} \cdots d_{k-1} d_{k+1} \cdots d_{n} $$
- C4: $S_{X} := \left\{ \mathbf{t} \in \mathbb{R}^{n} : f_{X} ( \mathbf{t} ) > 0 \right\}$を$X$のサポートという。
- 元々ランダムベクトルrandom Vectorは、確率ベクトルと訳されるが、高校卒業以上でStochasticやProbabilisticなどと混同されることを避けるため、原語をそのまま使う。
- 元々ジョイント累積分布関数joint Cumulative Distribution functionは、結合確率分布と訳されるが、独立や依存に対する誤解を招く可能性があるため、原語をそのまま使う。
- 元々マージナル分布marginal distributionは、周辺分布と訳されるが、経済学の限界marginalのようにその意味が伝わりにくいと思われるため、原語をそのまま使う。
説明
多変量確率分布は、一変量確率分布を多次元に一般化したものであり、変数が複数ある点で根本的に大きな違いがあるが、少なくとも学部レベルの数理統計学では、微積分学的なスキルでも十分に異なることができる。どのように異なるか見てみよう:
- 1: 混同してはいけないのは、ランダムベクトル$X : \Omega^{n} \to \mathbb{R}^{n}$も依然として関数であることだ。そのため、その値域を考えることができ、これにより多変量に関しても離散型と連続型に分類する。
- C2: 連続のジョイント密度関数は、一般的に確率が$0$の$A \subset \mathbb{R}^{n}$を除き、微積分学の基本定理に従って次のを満たすように定義される。 $$ {{ \partial^{n} } \over { \partial x_{1} \cdots \partial x_{n} }} F_{X} (\mathbf{x}) = f(\mathbf{x}) $$
- D3, C3: 式は複雑だが、簡単に言えば、ジョイント確率分布を純粋に確率変数$X_{k}$に関する分布に変えたものだ。経済学でマージナルという言葉が微分の概念と通じるのと反対に、数理統計学では関心のない変数を一掃するために積分や合計をすることだ。
Hogg et al. (2013). Introduction to Mathematical Statistics(7th Edition): p75~84. ↩︎