머신 러닝에서 회귀를 위한 선형 모델
정의1
단순 모델
데이터 집합 $X = \left\{ \mathbf{x}_{i} \right\}$와 레이블 집합 $Y = \left\{ y_{i} \right\}$ 사이의 타겟 함수target function $f : X \to Y$를 다음과 같이 정의하자.
$$ y_{i} = f(\mathbf{x}_{i}) $$
머신러닝에서 선형회귀linear regression란, 다음의 식을 만족하는 $\mathbf{w}$에 대한 선형함수 $\hat{f}$를 찾는 것을 말한다.
$$ y_{i} \approx \hat{y}_{i} = \hat{f}(\mathbf{x}_{i}, \mathbf{w}) = w_{0} + w_{1}x_{1} + \cdots + w_{n}x_{n} = w_{0} + \sum\limits_{j} w_{j}x_{j} $$
이때 $\mathbf{x} \in \mathbb{R}^{n}, \mathbf{w} \in \mathbb{R}^{n+1}$이다.
확장 모델
입력 데이터에 대한 비선형 함수 $\phi_{j}$가 주어졌다고 하자.
$$ y_{i} \approx \hat{y}_{i} = \hat{f}(\mathbf{x}_{i}, \mathbf{w}) = w_{0} + \sum\limits_{j} w_{j} \phi_{j}(\mathbf{x}_{i}) $$
이때 $\phi_{j}$를 베이시스 함수basis functions이라 한다.
설명
현실적으로 생각해봤을 때 타겟함수 $f$는 존재성부터 알 수 없다. 따라서 $f$와 최대한 비슷한 $\hat{f}$을 찾는 것이 목표이며, 가장 간단하면서도 많은 것을 설명하는 선형함수로 가정한다.
$$ f \approx \tilde{f} $$
비선형 베이시스 함수 $\phi$를 도입한 경우에도 이를 선형 모델이라고 부르는 것은 $\hat{f}$가 가중치 $\mathbf{w}$에 대해서 선형이기 때문이다.
표기법
$x_{0} = 1$, $\phi_{j} = 1$로 두면, 위의 두 모델을 더 간단하게 나타낼 수 있다.
$$ \hat{y} = \hat{f}(\mathbf{x}, \mathbf{w}) = \sum\limits_{j=0}^{n} w_{j}x_{j} = \mathbf{w}^{T}\mathbf{x} $$
이때 $\mathbf{x} = \begin{bmatrix} x_{0} & \dots & x_{n} \end{bmatrix}^{T}$, $\mathbf{w} = \begin{bmatrix} w_{0} & \dots & w_{n} \end{bmatrix}^{T}$이다.
$$ \hat{y} = \hat{f}(\mathbf{x}, \mathbf{w}) = \sum\limits_{j=0}^{n} w_{j}\phi_{j}(\mathbf{x}) = \mathbf{w}^{T}\boldsymbol{\phi}(\mathbf{x}) $$
이때 $\boldsymbol{\phi} = \begin{bmatrix} \phi_{0} & \dots & \phi_{n} \end{bmatrix}^{T}$이다.
통계학에서 선형 회귀
통계학에서는 $w_{i}$ 대신 $\beta_{i}$로 표기하며, 이를 회귀계수라 한다. 머신러닝에서는 $w_{i}$를 가중치weights라고 한다.
통계학 | 머신러닝 | |
---|---|---|
$x$ | 독립변수 | 데이터 |
$y$ | 종속변수 | 레이블 |
$w, \beta$ | 회귀계수 | 가중치 |
특히 머신러닝에서 $b = w_{0}$는 바이어스bias라고 불린다.
학습방법
선형 모델을 학습시키는 방법으로는 다음과 같은 것들이 있다.
- [경사하강법]
- [최소 제곱법]
- 베이지안
- [최대 우도(ML)]
- [최대 사후 확률(MAP)]
Christoper M. Bishop, Pattern Recognition annd Machine Learning (2006), p138-139 ↩︎