머신 러닝에서 회귀를 위한 선형 모델 📂머신러닝

머신 러닝에서 회귀를 위한 선형 모델

정의¹

데이터 집합 $X = \left\{ \mathbf{x}_{i} \right\}$와 레이블 집합 $Y = \left\{ y_{i} \right\}$ 사이의 타겟 함수^{target function} $f : X \to Y$를 다음과 같이 정의하자.

$$ y_{i} = f(\mathbf{x}_{i}) $$

머신러닝에서 선형회귀^{linear regression}란, 다음의 식을 만족하는 $\mathbf{w}$에 대한 선형함수 $\hat{f}$를 찾는 것을 말한다.

$$ y_{i} \approx \hat{y}_{i} = \hat{f}(\mathbf{x}_{i}, \mathbf{w}) = w_{0} + w_{1}x_{1} + \cdots + w_{n}x_{n} = w_{0} + \sum\limits_{j} w_{j}x_{j} $$

이때 $\mathbf{x} \in \mathbb{R}^{n}, \mathbf{w} \in \mathbb{R}^{n+1}$이다.

입력 데이터에 대한 비선형 함수 $\phi_{j}$가 주어졌다고 하자.

$$ y_{i} \approx \hat{y}_{i} = \hat{f}(\mathbf{x}_{i}, \mathbf{w}) = w_{0} + \sum\limits_{j} w_{j} \phi_{j}(\mathbf{x}_{i}) $$

이때 $\phi_{j}$를 베이시스 함수^{basis functions}이라 한다.

현실적으로 생각해봤을 때 타겟함수 $f$는 존재성부터 알 수 없다. 따라서 $f$와 최대한 비슷한 $\hat{f}$을 찾는 것이 목표이며, 가장 간단하면서도 많은 것을 설명하는 선형함수로 가정한다.

$$ f \approx \tilde{f} $$

비선형 베이시스 함수 $\phi$를 도입한 경우에도 이를 선형 모델이라고 부르는 것은 $\hat{f}$가 가중치 $\mathbf{w}$에 대해서 선형이기 때문이다.

$x_{0} = 1$, $\phi_{j} = 1$로 두면, 위의 두 모델을 더 간단하게 나타낼 수 있다.

$$ \hat{y} = \hat{f}(\mathbf{x}, \mathbf{w}) = \sum\limits_{j=0}^{n} w_{j}x_{j} = \mathbf{w}^{T}\mathbf{x} $$

이때 $\mathbf{x} = \begin{bmatrix} x_{0} & \dots & x_{n} \end{bmatrix}^{T}$, $\mathbf{w} = \begin{bmatrix} w_{0} & \dots & w_{n} \end{bmatrix}^{T}$이다.

$$ \hat{y} = \hat{f}(\mathbf{x}, \mathbf{w}) = \sum\limits_{j=0}^{n} w_{j}\phi_{j}(\mathbf{x}) = \mathbf{w}^{T}\boldsymbol{\phi}(\mathbf{x}) $$

이때 $\boldsymbol{\phi} = \begin{bmatrix} \phi_{0} & \dots & \phi_{n} \end{bmatrix}^{T}$이다.

통계학에서는 $w_{i}$ 대신 $\beta_{i}$로 표기하며, 이를 회귀계수라 한다. 머신러닝에서는 $w_{i}$를 가중치^weights라고 한다.

특히 머신러닝에서 $b = w_{0}$는 바이어스^bias라고 불린다.

선형 모델을 학습시키는 방법으로는 다음과 같은 것들이 있다.

Christoper M. Bishop, Pattern Recognition annd Machine Learning (2006), p138-139 ↩︎