斯坦福CS229（吴恩达授）学习笔记（5）

本文主要是介绍斯坦福CS229（吴恩达授）学习笔记（5），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

CS229-notes3

说明
正文
- Problem Set #2: Kernels, SVMs, and Theory
- - 1. Kernel ridge regression
  - 2. $\ell _2$ norm soft margin SVMs
  - 3. SVM with Gaussian kernel
  - 4. Naive Bayes and SVMs for Spam Classification

说明

此笔记 是cs229-notes3讲义中的学习内容，与B站上的“07 最优间隔分类器问题；08 顺序最小优化算法”视频对应，主要是该部分对应的习题解答，解答过程中可能会用到cs229-notes1中的部分内容。
课程相关视频、讲义等资料可参照《斯坦福CS229（吴恩达授）学习笔记（1）》获取。

正文

Problem Set #2: Kernels, SVMs, and Theory

1. Kernel ridge regression

解答：
（a）
$J(\theta)=\frac{1}{2}\sum_{i=1}^m(\theta^{T}x^{(i)}-y^{(i)})^2+\frac{\lambda}{2}||\theta||^2=\frac{1}{2}\sum_{i=1}^m(\theta^{T}x^{(i)}-y^{(i)})^2+\frac{\lambda}{2}\theta^T\theta$
所以
$\begin{aligned} \frac{\partial}{\partial\theta}J(\theta) =&\frac{\partial}{\partial\theta}\frac{1}{2}\sum_{i=1}^m(\theta^{T}x^{(i)}-y^{(i)})^2+\frac{\lambda}{2}\theta^T\theta \\ =&\frac{1}{2}\sum_{i=1}^m\frac{\partial}{\partial\theta}(\theta^{T}x^{(i)}-y^{(i)})^2+\lambda\theta\\ =&\frac{1}{2}\sum_{i=1}^m·2·(\theta^{T}x^{(i)}-y^{(i)})·x^{(i)}+\lambda\theta\\ =&\sum_{i=1}^m(\theta^{T}x^{(i)}-y^{(i)})x^{(i)}+\lambda\theta\\ \end{aligned}$
令
$\begin{aligned} X=&\left[ \begin{matrix} -&(x^{(1)})^T& -&\\ -&(x^{(2)})^T &-\\ &\vdots\\ -&(x^{(m)})^T& - \end{matrix} \right]\\ \vec y=&\left[ \begin{matrix} y^{(1)}\\ y^{(2)}\\ \vdots\\ y^{(m)} \end{matrix} \right]\\ \end{aligned}$
则
$\begin{aligned} \frac{\partial}{\partial\theta}J(\theta) =&\sum_{i=1}^m(\theta^{T}x^{(i)}-y^{(i)})x^{(i)}+\lambda\theta\\ =&X^T(X\theta-\vec y)+\lambda\theta\\ =&(X^TX+\lambda I)\theta-X^T\vec y \end{aligned}$
令 $\frac{\partial}{\partial\theta}J(\theta) =0$ ，可得 $\theta=(X^TX+\lambda I)^{-1}X^T\vec y$ 。
（b）
首先可以证明
$\begin{aligned} (\lambda I+BA)^{-1}B=&(\lambda I+BA)^{-1}(B^{-1})^{-1}\\ =&(B^{-1}(\lambda I+BA))^{-1}\\ =&(\lambda B^{-1}+A)^{-1}\\ =&BB^{-1}(\lambda B^{-1}+A)^{-1}\\ =&B(\lambda B^{-1}B+AB)^{-1}\\ =&B(\lambda I+AB)^{-1} \end{aligned}$
如果把 $x^{(i)}$ 替换成 $\phi(x^{(i)})$ ，则 $\theta=(\phi(X)^T\phi(X)+\lambda I)^{-1}\phi(X)^T\vec y$