기계학습에서 선형회귀모델의 최대우도 추정
정리
데이터 $\mathbf{x}_{i} \in \mathbb{R}^{n}$와 이의 레이블 $y_{i} \in \mathbb{R}$ 사이의 관계가 다음과 같은 선형모델이라 가정하자.
$$ y_{i} = \mathbf{w}^{\mathsf{T}} \mathbf{x}_{i} + \epsilon_{i}, \qquad i = 1, \ldots, K \tag{1} $$
$K > n$이라 할 때, 우도가 최대인 파라미터 $\mathbf{w}_{\text{ML}}$는 다음과 같다.
$$ \mathbf{w}_{\text{ML}} = (\mathbf{X}^{\mathsf{T}} \mathbf{X})^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{y} $$
이때 $\mathbf{y} = \begin{bmatrix} y_{1} & \cdots & y_{K} \end{bmatrix}^{\mathsf{T}}$이고, $\mathbf{X} = \begin{bmatrix} \mathbf{x}_{1} & \cdots & \mathbf{x}_{K} \end{bmatrix}^{\mathsf{T}} \in \mathbb{R}^{K \times n}$이다.
설명
$(1)$에서 $\mathbf{w} \in \mathbb{R}^{n}$은 모수파라미터이며, $\epsilon_{i} \sim N(0, \sigma^{2})$은 [가우시안 노이즈]이다. $\epsilon_{i}$가 $N(0, \sigma^{2})$을 따른다고 가정했으므로, $y_{i} = \mathbf{w}^{\mathsf{T}} \mathbf{x}_{i} + \epsilon_{i}$는 $N(\mathbf{w}^{\mathsf{T}} \mathbf{x}_{i}, \sigma^{2})$을 따른다.
$$ y_{i} \sim N(\mathbf{w}^{\mathsf{T}} \mathbf{x}_{i}, \sigma^{2}) $$
최대우도 추정은 다음을 만족하는 $\mathbf{w}_{\text{ML}}$를 찾는 것이다.
$$ \mathbf{w}_{\text{ML}} = \argmax_{\mathbf{w}} p(\mathbf{y} | \mathbf{w}, \mathbf{X}) $$
$y_{i}$와 $\mathbf{y}$에 대한 $\mathbf{w}$의 우도 함수는 다음과 같다.
$$ p(y_{i} | \mathbf{w}, \mathbf{x}_{i}) = \dfrac{1}{\sqrt{2\pi \sigma^{2}}}\exp \left[ -\dfrac{(y_{i} - \mathbf{w}^{\mathsf{T}} \mathbf{x}_{i})^{2}}{2\sigma^{2}} \right] $$
$$ \begin{align*} p(\mathbf{y} | \mathbf{w}, \mathbf{X}) &= \prod_{i=1}^{K} p(y_{i} | \mathbf{w}, \mathbf{x}_{i}) \\ &= \prod_{i=1}^{K} \dfrac{1}{\sqrt{2\pi \sigma^{2}}} \exp \left[ -\dfrac{(y_{i} - \mathbf{w}^{\mathsf{T}} \mathbf{x}_{i})^{2}}{2\sigma^{2}} \right] \\ &= \dfrac{1}{(2\pi \sigma^{2})^{K/2}} \exp \left[ -\dfrac{1}{2\sigma^{2}} \sum_{i=1}^{K} (y_{i} - \mathbf{w}^{\mathsf{T}} \mathbf{x}_{i})^{2} \right] \\ &= \dfrac{1}{(2\pi \sigma^{2})^{K/2}} \exp \left[ -\dfrac{1}{2\sigma^{2}} \| \mathbf{y} - \mathbf{X}\mathbf{w} \|_{2}^{2} \right] \end{align*} $$
우도가 지수함수로 표현되므로, 이 때는 로그 우도를 고려하는게 계산에 있어서 편리하다.
$$ \begin{align*} \mathbf{w}_{\text{ML}} &= \argmax_{\mathbf{w}} \log p(\mathbf{y} | \mathbf{w}, \mathbf{X}) \\ &= \argmax_{\mathbf{w}} \dfrac{1}{(2\pi \sigma^{2})^{K/2}} \left( -\dfrac{1}{2\sigma^{2}} \| \mathbf{y} - \mathbf{X}\mathbf{w} \|_{2}^{2} \right) \\ &= \argmax_{\mathbf{w}} (-\| \mathbf{y} - \mathbf{X}\mathbf{w} \|_{2}^{2}) \\ &= \argmin_{\mathbf{w}} \| \mathbf{y} - \mathbf{X}\mathbf{w} \|_{2}^{2} \end{align*} $$
최소제곱법에 따라, $\mathbf{w}_{\text{ML}}$는 다음과 같다.
$$ \mathbf{w}_{\text{ML}} = (\mathbf{X}^{\mathsf{T}} \mathbf{X})^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{y} $$