logo

機械学習における線形回帰モデルの最尤推定推定 📂機械学習

機械学習における線形回帰モデルの最尤推定推定

定理

データ$\mathbf{x}_{i} \in \mathbb{R}^{n}$とそのラベル$y_{i} \in \mathbb{R}$間の関係が、次のような線形モデルであると仮定する。

$$ y_{i} = \mathbf{w}^{\mathsf{T}} \mathbf{x}_{i} + \epsilon_{i}, \qquad i = 1, \ldots, K \tag{1} $$

$K > n$とすると、尤度が最大となるパラメータ$\mathbf{w}_{\text{ML}}$は次の通りだ。

$$ \mathbf{w}_{\text{ML}} = (\mathbf{X}^{\mathsf{T}} \mathbf{X})^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{y} $$

このとき、$\mathbf{y} = \begin{bmatrix} y_{1} & \cdots & y_{K} \end{bmatrix}^{\mathsf{T}}$であり、$\mathbf{X} = \begin{bmatrix} \mathbf{x}_{1} & \cdots & \mathbf{x}_{K} \end{bmatrix}^{\mathsf{T}} \in \mathbb{R}^{K \times n}$である。

説明

$(1)$で$\mathbf{w} \in \mathbb{R}^{n}$は母数パラメータであり、$\epsilon_{i} \sim N(0, \sigma^{2})$は[ガウスノイズ]である。$\epsilon_{i}$が$N(0, \sigma^{2})$に従うと仮定したため、$y_{i} = \mathbf{w}^{\mathsf{T}} \mathbf{x}_{i} + \epsilon_{i}$は$N(\mathbf{w}^{\mathsf{T}} \mathbf{x}_{i}, \sigma^{2})$に従う。

$$ y_{i} \sim N(\mathbf{w}^{\mathsf{T}} \mathbf{x}_{i}, \sigma^{2}) $$

最大尤度推定は、次を満たす$\mathbf{w}_{\text{ML}}$を見つけることである。

$$ \mathbf{w}_{\text{ML}} = \argmax_{\mathbf{w}} p(\mathbf{y} | \mathbf{w}, \mathbf{X}) $$

$y_{i}$と$\mathbf{y}$に対する$\mathbf{w}$の尤度関数は次のようになる。

$$ p(y_{i} | \mathbf{w}, \mathbf{x}_{i}) = \dfrac{1}{\sqrt{2\pi \sigma^{2}}}\exp \left[ -\dfrac{(y_{i} - \mathbf{w}^{\mathsf{T}} \mathbf{x}_{i})^{2}}{2\sigma^{2}} \right] $$

$$ \begin{align*} p(\mathbf{y} | \mathbf{w}, \mathbf{X}) &= \prod_{i=1}^{K} p(y_{i} | \mathbf{w}, \mathbf{x}_{i}) \\ &= \prod_{i=1}^{K} \dfrac{1}{\sqrt{2\pi \sigma^{2}}} \exp \left[ -\dfrac{(y_{i} - \mathbf{w}^{\mathsf{T}} \mathbf{x}_{i})^{2}}{2\sigma^{2}} \right] \\ &= \dfrac{1}{(2\pi \sigma^{2})^{K/2}} \exp \left[ -\dfrac{1}{2\sigma^{2}} \sum_{i=1}^{K} (y_{i} - \mathbf{w}^{\mathsf{T}} \mathbf{x}_{i})^{2} \right] \\ &= \dfrac{1}{(2\pi \sigma^{2})^{K/2}} \exp \left[ -\dfrac{1}{2\sigma^{2}} \| \mathbf{y} - \mathbf{X}\mathbf{w} \|_{2}^{2} \right] \end{align*} $$

尤度が指数関数で表現されるため、この場合は対数尤度を考慮することが計算において便利である。

$$ \begin{align*} \mathbf{w}_{\text{ML}} &= \argmax_{\mathbf{w}} \log p(\mathbf{y} | \mathbf{w}, \mathbf{X}) \\ &= \argmax_{\mathbf{w}} \dfrac{1}{(2\pi \sigma^{2})^{K/2}} \left( -\dfrac{1}{2\sigma^{2}} \| \mathbf{y} - \mathbf{X}\mathbf{w} \|_{2}^{2} \right) \\ &= \argmax_{\mathbf{w}} (-\| \mathbf{y} - \mathbf{X}\mathbf{w} \|_{2}^{2}) \\ &= \argmin_{\mathbf{w}} \| \mathbf{y} - \mathbf{X}\mathbf{w} \|_{2}^{2} \end{align*} $$

最小二乗法に従うと、$\mathbf{w}_{\text{ML}}$は次の通りだ。

$$ \mathbf{w}_{\text{ML}} = (\mathbf{X}^{\mathsf{T}} \mathbf{X})^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{y} $$

参照