- 저번주에 본 비선형 커널 학습 알고리즘은 커널 함수 $k(\bold x_n,\bold x_m)$의 값을 훈련 집합의 모든 $\bold x_n, \bold x_m$ 짝에 대해서 계산해야 한다는 한계가 있음
- train 중 시행하기에 계산적으로 불가능할 수도 있으며, test 시간이 매우 오래 걸릴 수도 있다.
- 커널 기반의 알고리즘이지만, 좀 더 sparse한 해를 가지는 방법을 소개
- 이 경우 새 입력값에 대한 예측은 훈련 데이터 포인트의 부분 집합에 대해 계산한 커널 함숫값에만 종속적이게 됨
- SVM: convex optimization 문제를 푸는 것을 바탕으로 모델 매개변수를 결정할 수 있다. 즉, 지역적인 최적화해가 전역적인 최적화해 이게 됨.
- RVM: SVM은 결정알고리즘으로, 사후 확률을 내놓지 않음. RVM은 베이지안 기반으로 사후 확률을 출력. RVM은 SVM에 대해 훨씬 더 희박한 해를 내놓음.
7.1 최대 마진 분류기(Maximum Margin Classifiers)

- $y(x) = \bold w^T\phi(x)+b$ 형태를 취하는 $y(x) = 0$에 해당하는 초평면으로부터 포인트 $\bold x$까지의 수직거리는 $|y(x)| \over ||w||$이므로,
$\bold x_n$과 결정 표면까지의 거리는 $\dfrac{t_ny(\bold x_n)}{||\bold w||} = \dfrac{t_n(\bold w^T\phi(\bold x_n) + b)}{||\bold w||}$ where $t_n \in \{-1, 1\}$
- 마진은 데이터 집합의 포인트들 중 가장 가까운 $\bold x_n$으로부터 결정 표면까지의 수직 거리
- 이 거리를 최대화하는 방식으로 매개변수 $\bold w$와 $b$를 최적화
- 결정 경계와 표본간의 차이 거리를 최대화하는 해는
$\text{argmax}_{\bold w,b}[ {{1}\over{||\bold w||}}\text{min}_n(t_n(\bold w^T\phi(\bold x_n)+b))]$
where $\bold x$는 입력 벡터 $\bold x_1, ..., \bold x_N$, $t$는 타겟 변수 $t_1, ..., t_N$ 이고, $t_n\in \{-1,1\}$
$\textbf w$는 n에 종속적이지 않아 밖으로.
- 이 해는 라그랑주 승수법으로 구하는데,
$\bold w=\sum_{n=1}^Na_nt_n\phi(\bold x_n)$ 과 $0 = \sum_{n=1}^Na_nt_n$ 의 두 조건에 대한 해를 구하면 됨.
- 이를 support vector machine이라 한다.

- 단순히 선형으로 분리 가능한 데이터 집합의 경우, 베이지안으로 사전 분포에 대한 추론을 하면 중간에 자리하는 결정 경계를 얻고, 큰 마진 기반의 해도 이와 비슷한 모습
왼쪽은 베이지안 로지스틱 회귀. 변분적 추론을 이용해 구한 예측 분포.
오른쪽은 사후분포 $p(\bold w|\bold t)$로부터 추출한 매개변수 벡터 $\bold w$에 대한 다섯개의 표본에 해당하는 결정 경계


- 2차원 공간의 단순한 합성데이터에 가우시안 커널 $k(\bold{x,x^\prime})=\text{exp}(\dfrac{-||\bold{x-x^\prime}||^2}{2\sigma^2})$ 을 적용하면 간접적으로 정의된 비선형 특징 공간에서 선형적으로 분리가 가능
⇒ 훈련 데이터 포인트들은 원래의 데이터 공간에서도 완벽히 분리


7.1.1 클래스 분포 간의 중첩(Overlapping class distributions)
- test set에서는 클래스 분포간의 중첩이 존재할 수 있으므로, overfitting을 막자. → 일반화 성능을 올리자.
- ⇒ 몇몇 훈련 포인트들이 오분류 되는 것을 허용하도록 수정.
- 기존 loss식은 $\sum_{n=1}^NE_\infin(y(\bold x_n)t_n-1)+\lambda||\bold w||^2$ 인데, 이는 맞추면 0, 틀리면 inf