logo

混合分布 📂数理統計学

混合分布

ビルドアップ1

下の図のような確率密度関数を持つ確率分布を近似したいとしよう。

確率分布を近似する基本的な方法の一つは、近似したい分布と最も似た正規分布を探すことである。しかし、次の図が示すように、我々が近似しようとする分布はピークが三つなので、正規分布でこれを適切に近似するのは難しそうだ。

ここでこう考えることができる。正規分布は一つのピークを持ち、近似したい分布は三つのピークを持つ。ならば、三つの正規分布を足して近似したい分布を近似できるのではないか?これがまさに混合分布のアイデアである。実際に上の確率密度関数は次のようになる。

p(x)=12N(5,1)+14N(4,1)+14N(0,1.5) p(x) = \dfrac{1}{2}N(5, 1) + \dfrac{1}{4}N(-4, 1) + \dfrac{1}{4}N(0, 1.5)

定義

簡単な定義

確率分布線形結合混合分布mixture distributionという。

厳密な定義2

kk個の確率分布の確率密度関数がそれぞれf1,,fkf_{1}, \dots, f_{k}だとしよう。混合係数mixing coefficient π1,,πk\pi_{1}, \dots, \pi_{k}に対して、次の確率密度関数 ffが従う分布を混合分布mixture distributionという。

f(x)=π1f1(x)++πkfk(x)=i=1kπifi(x)(1) f(x) = \pi_{1} f_{1}(x) + \cdots + \pi_{k} f_{k}(x) = \sum_{i=1}^{k} \pi_{i} f_{i}(x) \tag{1}

説明

一方、ffが確率密度関数となるためには、πi\pi_{i}は全て足すと11になるという条件が必要だ。簡単に示すと、(1)(1)の両辺を積分すると次のようになる。

f(x)dx=(i=1kπifi(x))dx=i=1kπifi(x)dx=i=1kπi=1 \int f(x) dx = \int \left( \sum_{i=1}^{k} \pi_{i} f_{i}(x) \right) dx = \sum_{i=1}^{k} \pi_{i} \int f_{i}(x) dx = \sum_{i=1}^{k} \pi_{i} = 1     i=1kπi=1 \implies \sum_{i=1}^{k} \pi_{i} = 1

また、fi0f_{i} \ge 0であるから、それぞれのπi\pi_{i}πi[0,1]\pi_{i} \in [0, 1]を満たさなければならない。

一方、πi\pi_{i}は自然に確率、重みなどとも呼ばれることができる。確率に関する解釈は文書下部の責任値単元を参照しよう。

混合係数混合確率重み
mixing coefficientsmixing probabilitiesweights
πi\pi_{i}pip_{i}wiw_{i}
i=1kπi=1\sum\limits_{i=1}^{k} \pi_{i} = 1i=1kpi=1\sum\limits_{i=1}^{k} p_{i} = 1i=1kwi=1\sum\limits_{i=1}^{k} w_{i} = 1
0πi10 \le \pi_{i} \le 10pi10 \le p_{i} \le 10wi10 \le w_{i} \le 1

累積分布関数

確率密度関数 ffに対応する確率変数XXとすると、XX累積分布関数 FXF_{X}は次の通りである。

FX(x)=i=1kπkFi(x) F_{X}(x) = \sum\limits_{i=1}^{k} \pi_{k} F_{i}(x)

このとき、FiF_{i}fif_{i}に対応する累積分布関数である。

期待値

それぞれのfif_{i}に対応する確率変数をXiX_{i}とする。XiX_{i}の平均がμi=E[Xi]\mu_{i} = E[X_{i}]とすると、XXの期待値は次のようになる。

E[X]=xf(x)dx=xi=1kπifi(x)dx=i=1kπixfi(x)dx=i=1kπiμi=μ \begin{align*} E[X] &= \int x f(x) dx = \int x\sum\limits_{i=1}^{k} \pi_{i}f_{i}(x)dx \\ &= \sum\limits_{i=1}^{k}\pi_{i} \int x f_{i}(x)dx = \sum\limits_{i=1}^{k}\pi_{i}\mu_{i} \\ &= \mu \end{align*}

再度いうと、μ=E[X]\mu = E[X]μi\mu_{i}加重平均である。

分散

XXの分散は次のようになる。

Var(X)=(xμ)2f(x)dx=(xμ)2i=1kπifi(x)dx=i=1kπi(xμ)2fi(x)dx=i=1kπi[(xμi)+(μiμ)]2fi(x)dx=i=1kπi[(xμi)2fi(x)dx+2(μiμ)(xμi)fi(x)dx+(μiμ)2fi(x)dx]=i=1kπi(xμi)2fi(x)dx+i=1kπi(μiμ)2fi(x)dx \begin{align*} &\Var(X) \\ &= \int (x - \mu)^{2} f(x) dx = \int (x - \mu)^{2} \sum\limits_{i=1}^{k} \pi_{i}f_{i}(x)dx \\ &= \sum\limits_{i=1}^{k}\pi_{i} \int (x - \mu)^{2} f_{i}(x)dx \\ &= \sum\limits_{i=1}^{k}\pi_{i} \int \big[(x - \mu_{i}) + (\mu_{i} - \mu) \big]^{2} f_{i}(x)dx \\ &= \sum\limits_{i=1}^{k}\pi_{i} \left[ \int (x - \mu_{i})^{2} f_{i}(x)dx + 2(\mu_{i} - \mu) \int (x - \mu_{i}) f_{i}(x)dx \right. \\ &\qquad \qquad + \left. \int (\mu_{i} - \mu)^{2} f_{i}(x)dx \right] \\ &= \sum\limits_{i=1}^{k}\pi_{i} \int (x - \mu_{i})^{2} f_{i}(x)dx + \sum\limits_{i=1}^{k}\pi_{i} (\mu_{i} - \mu)^{2} \int f_{i}(x)dx \end{align*}

最後の等号は交差項で(xμi)fi(x)dx=0\int (x - \mu_{i}) f_{i}(x)dx = 0になるため成立する。式を更に整理すると次のようになる。

Var(X)=i=1kπiσi2+i=1kπi(μiμ)2 \Var(X) = \sum\limits_{i=1}^{k}\pi_{i} \sigma_{i}^{2} + \sum\limits_{i=1}^{k}\pi_{i} (\mu_{i} - \mu)^{2}

このとき、σi2\sigma_{i}^{2}XiX_{i}の分散である。

責任値

i=1kπi=1πi0i \begin{array}{c} \sum\limits_{i=1}^{k} \pi_{i} = 1 \\[1em] \pi_{i} \ge 0 \quad \forall i \end{array}

πi\pi_{i}が満たすべき性質が確率のそれと同じであるため、これを確率として解釈することができ、この場合は混合確率mixing probabilityという。f(i)=πif(i) = \pi_{i}ii番目の成分が選ばれる事前確率密度とみなすなら、fi(x)f_{i}(x)を次のようにiiが与えられたときの条件付き確率密度とみなすことができる。

fi(x)=f(xi) f_{i}(x) = f(x | i)

すると、事後確率密度 f(ix)f(i | x)ベイズの定理に従って次のようになり、γi\gamma_{i}責任値responsibilityという。

γi(x)=f(ix)=f(i)f(xi)j=1kf(j)f(xj)=f(i)f(xi)f(x) \begin{align*} \gamma_{i}(x) &= f(i | x) \\ &= \dfrac{f(i) f(x | i)}{\sum\limits_{j=1}^{k} f(j) f(x | j)} \\ &= \dfrac{f(i) f(x | i)}{f(x)} \end{align*}


  1. Christoper M. Bishop, Pattern Recognition annd Machine Learning (2006), p110-113 ↩︎

  2. Hogg et al. (2018). Introduction to Mathematical Statistcs(8th Edition): p218~220. ↩︎