logo

머신 러닝에서 회귀를 위한 선형 모델 📂머신러닝

머신 러닝에서 회귀를 위한 선형 모델

정의1

단순 모델

데이터 집합 X={xi}X = \left\{ \mathbf{x}_{i} \right\}와 레이블 집합 Y={yi}Y = \left\{ y_{i} \right\} 사이의 타겟 함수target function f:XYf : X \to Y를 다음과 같이 정의하자.

yi=f(xi) y_{i} = f(\mathbf{x}_{i})

머신러닝에서 선형회귀linear regression란, 다음의 식을 만족하는 w\mathbf{w}에 대한 선형함수 f^\hat{f}를 찾는 것을 말한다.

yiy^i=f^(xi,w)=w0+w1x1++wnxn=w0+jwjxj y_{i} \approx \hat{y}_{i} = \hat{f}(\mathbf{x}_{i}, \mathbf{w}) = w_{0} + w_{1}x_{1} + \cdots + w_{n}x_{n} = w_{0} + \sum\limits_{j} w_{j}x_{j}

이때 xRn,wRn+1\mathbf{x} \in \mathbb{R}^{n}, \mathbf{w} \in \mathbb{R}^{n+1}이다.

확장 모델

입력 데이터에 대한 비선형 함수 ϕj\phi_{j}가 주어졌다고 하자.

yiy^i=f^(xi,w)=w0+jwjϕj(xi) y_{i} \approx \hat{y}_{i} = \hat{f}(\mathbf{x}_{i}, \mathbf{w}) = w_{0} + \sum\limits_{j} w_{j} \phi_{j}(\mathbf{x}_{i})

이때 ϕj\phi_{j}베이시스 함수basis functions이라 한다.

설명

현실적으로 생각해봤을 때 타겟함수 ff는 존재성부터 알 수 없다. 따라서 ff와 최대한 비슷한 f^\hat{f}을 찾는 것이 목표이며, 가장 간단하면서도 많은 것을 설명하는 선형함수로 가정한다.

ff~ f \approx \tilde{f}

비선형 베이시스 함수 ϕ\phi를 도입한 경우에도 이를 선형 모델이라고 부르는 것은 f^\hat{f}가 가중치 w\mathbf{w}에 대해서 선형이기 때문이다.

표기법

x0=1x_{0} = 1, ϕj=1\phi_{j} = 1로 두면, 위의 두 모델을 더 간단하게 나타낼 수 있다.

y^=f^(x,w)=j=0nwjxj=wTx \hat{y} = \hat{f}(\mathbf{x}, \mathbf{w}) = \sum\limits_{j=0}^{n} w_{j}x_{j} = \mathbf{w}^{T}\mathbf{x}

이때 x=[x0xn]T\mathbf{x} = \begin{bmatrix} x_{0} & \dots & x_{n} \end{bmatrix}^{T}, w=[w0wn]T\mathbf{w} = \begin{bmatrix} w_{0} & \dots & w_{n} \end{bmatrix}^{T}이다.

y^=f^(x,w)=j=0nwjϕj(x)=wTϕ(x) \hat{y} = \hat{f}(\mathbf{x}, \mathbf{w}) = \sum\limits_{j=0}^{n} w_{j}\phi_{j}(\mathbf{x}) = \mathbf{w}^{T}\boldsymbol{\phi}(\mathbf{x})

이때 ϕ=[ϕ0ϕn]T\boldsymbol{\phi} = \begin{bmatrix} \phi_{0} & \dots & \phi_{n} \end{bmatrix}^{T}이다.

통계학에서 선형 회귀

통계학에서는 wiw_{i} 대신 βi\beta_{i}로 표기하며, 이를 회귀계수라 한다. 머신러닝에서는 wiw_{i}가중치weights라고 한다.

통계학머신러닝
xx독립변수데이터
yy종속변수레이블
w,βw, \beta회귀계수가중치

특히 머신러닝에서 b=w0b = w_{0}바이어스bias라고 불린다.

학습방법

선형 모델을 학습시키는 방법으로는 다음과 같은 것들이 있다.


  1. Christoper M. Bishop, Pattern Recognition annd Machine Learning (2006), p138-139 ↩︎