斯坦福CS229（吴恩达授）学习笔记（3）

本文主要是介绍斯坦福CS229（吴恩达授）学习笔记（3），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

CS229-notes1-part3

说明
正文
- Problem Set #1: Supervised learning
- - 1. Newton's method for computing least squares
  - 5. Exponential family and the geometric distribution

说明

此笔记 是cs229-notes1讲义中的第二部分学习内容，与B站上的“04 牛顿方法”视频对应，主要是对讲义中一些推理的补充以及一些重点内容的记录，另外还会附加该部分相对应的习题解答和算法的C++实现。
课程相关视频、讲义等资料可参照《斯坦福CS229（吴恩达授）学习笔记（1）》获取。

正文

Problem Set #1: Supervised learning

1. Newton’s method for computing least squares

原文题目如下：
Newton's method for computing least squares
解答：
（a）
假定：
$X:m\times n$ ， $\theta:n\times 1$ ， $\vec y:m\times 1$
$\begin{aligned} J(\theta)=&\frac{1}{2}\sum^m_{i=1}(\theta^Tx^{(i)}-y^{(i)})^2\\ =&\frac{1}{2}(X\theta-\vec y)^T(X\theta-\vec y)\\ =&\frac{1}{2}tr[(X\theta-\vec y)^T(X\theta-\vec y)]\\ =&\frac{1}{2}tr[\theta^TX^TX\theta-(\vec y^TX\theta)^T-\vec y^TX\theta+\vec y^T \vec y] \end{aligned}$
所以
$\begin{aligned} \nabla_\theta J(\theta)=&\frac{1}{2}\nabla_\theta tr[\theta^TX^TX\theta-(\vec y^TX\theta)^T-\vec y^TX\theta+\vec y^T \vec y]\\ =&\frac{1}{2}[\nabla_\theta tr\theta^TX^TX\theta-2\nabla_\theta tr\vec y^TX\theta]\\ =&\frac{1}{2}[\nabla_\theta tr\theta^T_cX^TX\theta+\nabla_\theta tr\theta^TX^TX\theta_c]-(\vec y^TX)^T\\ =&X^TX\theta-X^T\vec y \end{aligned}$