인풋 집합input setX=∅ 과 양정부호 커널k:X×X→R 이 주어져 있다고 하자. 학습데이터셋training Dataset을
D:={(xi,yi)}i=1m⊂X×R
라 하고, 재생 커널 힐베르트 공간Hk 의 클래스
F:={f∈RX:f(⋅)=i=1∑∞βik(⋅,zi)∧βi∈R∧zi∈X∧∥f∥<∞}⊂Hk
를 위와 같이 둔다. 임의의 목적 함수c:(D×R)m→R 과 단조증가함수인 레귤라이저regulizerg:R→[0,∞) 에 대해 다음과 같이 정칙화된 대상 범함수regulized Objective FunctionalL:F→R 이 정의되어 있다고 하자.
L(f):=c((x1,y1,f(x1)),⋯,(xm,ym,f(xm)))+g(∥f∥)
여기서 Hk 의 놈∥⋅∥ 은 k 의 양정부호성positive Definiteness에 따라 다음과 같이 주어진다.
i=1∑∞βik(⋅,zi)2:=i=1∑∞j=1∑∞βiβjk(zi,zj)≥0
L(f) 를 최소화하는 함수 f∈F 는 어떤 {αi}i=1m⊂R 에 대해 다음과 같은 꼴로 나타난다.
f(⋅)=i=1∑mαik(⋅,xi)
반모수semiparametric
X 에서 정의된 M 개의 실함수의 집합을 {ψp:X→R}p=1M 에 대해 행렬(ψp(xi))ip 의 랭크가 M 이라고 하자. 그러면 f∈F 와 h∈span{ψp} 에 대해
c((x1,y1,f~(x1)),⋯,(xm,ym,f~(xm)))+g(∥f∥)
를 최소화하는 f~=f+h 는 어떤 {αi}i=1m,{βp}p=1M⊂R 에 대해 다음과 같은 꼴로 나타난다.
f~(⋅)=i=1∑mαik(⋅,xi)+p=1∑Mβpψp(⋅)
표현자 정리representer theorem은 고전적 머신러닝, 특히 서포트벡터머신의 맥락에서 가장 중요한 정리 중 하나로써 주어진 데이터에 대해 우리가 근사시키고 싶은 목적 함수f 가 적절한 커널k 에 대해
f(⋅)=i=1∑mαik(⋅,xi)
와 같은 꼴로 나타난다고 하는 강력한 정리다. 여기서 커널의 인풋 중 하나가 xi 로 픽스된 함수
k(⋅,xi)=ϕ(xi)(⋅)∈Hk
을 표현자representer라 부른다. 이에 따르면 표현자 정리는 ‘재생 커널 힐베르트 공간에서 학습데이터에 적합한fitted 임의의 함수는 표현자들의 유한한 선형결합으로 나타낼 수 있다’고 요약할 수 있겠다. 특히 비선형회귀를 위한 서포트벡터 머신의 커널 트릭은 이에 정확히 부합한다.
데이터 과학의 맥락에서 표현자 ϕ(xi)(⋅) 는 피쳐 맵feature map이라고도 불리는데, 임의의 데이터X 를 우리가 그 특징feature을 알 수 있는 힐베르트공간으로 옮기고 그 유한한 합으로 우리가 원하는 함수를 표현할 수 있다는 말은 그동안 우리가 배워온 많은 머신러닝 기법들이 왜 작동해왔는지를 정당화한다. 물론 수학적 보장이 없더라도 그 기법들은 기법 그 자체로써 유효하지만, 표현자 정리가 있음으로써 그 기법들이 이론적 기반을 다지게 된다는 점에서 아주 중요하다.
목적 함수와 레귤라이저
정리의 스테이트먼트에서는 목적 함수 c 와 레귤라이저 g 를 아주 일반적으로 정의했지만, 실질적으로 많은 경우에 c 는 데이터와 f 의 적합도를 측정하는 평균잔차제곱, 즉
c=m1i=1∑n(yi−f(xi))2
로 보고 g 는 제곱 세미 놈 페널티 g(∥f∥)=λ∥f∥2 로 보아도 무방하다1.
주의해야할 점은 이 수식의 모양이나 단어의 의미만 보고 목적 함수와 레귤라이저를 구분해서는 안 된다는 것이다. 표현자 정리의 가장 대표적인 응용이 서포트 벡터 머신인데, 마진에 느슨한 허용을 주는 소프트 마진 SVM에서 다루는 최소화 문제는 다음과 같다.
Minimizesubject to21∥w∥22+λ∑k=1nξk∣f(xk)∣≥1−ξkξk≥0k=1,⋯,n
여기서 최적화 그 자체만 생각했을 때 목적 함수는 상수 λ=0 에 대해 사실
2λ1∥w∥22+k=1∑nξk
과 다름 없으며, 이 때는 데이터와의 괴리를 생각하는 ∑k=1nξk 가 c 고 서포트 벡터 머신의 초평면 f(x)=wT+b 에서 유도되는 2λ1∥w∥22 가 g 로 읽혀야한다. 이 최적화의 의미를 수학에 두느냐 머신러닝에 두느냐에 따라 헷갈릴 수 있는데,
수학의 색이 더 강한 사람은 SVM을 ‘일단 선형회귀를 끝낸 뒤 예외를 두는 것’으로 보기 때문에 ∥w∥22 를 먼저 최소화하려 하고
데이터과학의 색이 더 강한 사람은 SVM을 ‘우선 데이터를 잘 분류하는데에 성공하고, 그 중에서 가장 마진이 큰 초평면을 찾는 것’으로 보기 때문에 ∑k=1nξk 을 먼저 최소화하려고 하기 때문이다.
양쪽 다 충분히 공감할 수 있는 관점이고, 표현자 정리의 응용이 SVM 하나만 있는 것도 아니니 여기서는 뇌새김 암기법 같은 것을 찾으려 하지 말고 문제에 따라 능동적으로 사고하고 받아들여야한다.
재생커널의 정의: 함수 k:X×X→C 가 다음 두 조건을 만족하면 H 의 재생 커널reproducing Kernel이라 한다.
(i): 표현자representer: 모든 x∈X 에 대해
k(⋅,x)∈H
(ii) 재생 성질reproducing Property: 모든 x∈X 과 모든 f∈H 에 대해
⟨f,k(⋅,x)⟩=f(x)=δx(f)
특히 모든 x1,x2∈X 에 대해 다음이 성립한다.
k(x1,x2)=⟨k(⋅,x2),k(⋅,x1)⟩
재생커널 k:X×X→R 에 대해 x↦k(⋅,x) 인 (표현자) 함수 ϕ:X→RX 를 정의하자. k 는 재생커널이므로, x′∈X 에서 함수 (ϕ(x))(⋅) 의 함수값은 모든 x,x′∈X 에 대해
(ϕ(x))(x′)=k(x′,x)=⟨ϕ(x′),ϕ(x)⟩
이다. 여기서 ⟨⋅,⋅⟩ 는 Hk 의 내적이다. 주어진 {xi}i=1m 에 대해 임의의 함수 f∈F 는 span{ϕ(xi)}i=1m 의 부분과 그에 직교해서 모든 j 에 대해
⟨v,ϕ(xj)⟩=0
를 만족하는 v∈F 와 어떤 (α1,⋯,αm)⊂Rm 에 대해 다음과 같이 나타낼 수 있다.
f=i=1∑mαiϕ(xi)+v
우리는 이제
L(f):==c((x1,y1,f(x1)),⋯,(xm,ym,f(xm)))+g(∥f∥)c+g
에서 c 는 v 에 독립이며, v=0 일 때 f 가 L(f) 를 최소화함을 논할 것이다.
Part 2. c 와 v 는 독립이다
함수 f=f(⋅) 와 재생 커널 k(⋅,xj) 의 내적은 재생 성질에 따라
=f(xj)==⟨f,k(⋅,xj)⟩⟨i=1∑mαiϕ(xi)+v,ϕ(xj)⟩i=1∑mαi⟨ϕ(xi),ϕ(xj)⟩+0
이다. 이는 v 에 독립이므로, L(f)=c+g 에서 학습데이터 D 와 f 에만 종속된
c=c((x1,y1,f(x1)),⋯,(xm,ym,f(xm)))
역시 v 에 독립임을 알 수 있다.
==≥g(∥f∥)g(i=1∑mαiϕ(xi)+v)gi=1∑mαiϕ(xi)+v2+∥v∥2g(i=1∑mαiϕ(xi))∵(1)∵(2)
를 얻는다. 보다시피 v=0 일 때 등식이 성립하며, g 가 최소화되려면 v=0 이어야 한다. 한편 Part 2에서 v 는 c 에 영향을 끼칠 수 없음을 확인했으므로 v=0 으로 두어도 무방하고, L=c+g 를 최소화하는 함수f 는 다음과 같은 꼴로 나타날 수 있게 된다.
f(⋅)=i=1∑mαik(⋅,xi)