本文主要是介绍斯坦福CS229(吴恩达授)学习笔记(3),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
CS229-notes1-part3
- 说明
- 正文
- Problem Set #1: Supervised learning
- 1. Newton's method for computing least squares
- 5. Exponential family and the geometric distribution
说明
此笔记 是cs229-notes1讲义中的第二部分学习内容,与B站上的“04 牛顿方法”视频对应,主要是对讲义中一些推理的补充以及一些重点内容的记录,另外还会附加该部分相对应的习题解答和算法的C++实现。
课程相关视频、讲义等资料可参照《斯坦福CS229(吴恩达授)学习笔记(1)》 获取。
正文
Problem Set #1: Supervised learning
1. Newton’s method for computing least squares
原文题目如下:
解答:
(a)
假定:
X : m × n X:m\times n X:m×n, θ : n × 1 \theta:n\times 1 θ:n×1, y ⃗ : m × 1 \vec y:m\times 1 y:m×1
J ( θ ) = 1 2 ∑ i = 1 m ( θ T x ( i ) − y ( i ) ) 2 = 1 2 ( X θ − y ⃗ ) T ( X θ − y ⃗ ) = 1 2 t r [ ( X θ − y ⃗ ) T ( X θ − y ⃗ ) ] = 1 2 t r [ θ T X T X θ − ( y ⃗ T X θ ) T − y ⃗ T X θ + y ⃗ T y ⃗ ] \begin{aligned} J(\theta)=&\frac{1}{2}\sum^m_{i=1}(\theta^Tx^{(i)}-y^{(i)})^2\\ =&\frac{1}{2}(X\theta-\vec y)^T(X\theta-\vec y)\\ =&\frac{1}{2}tr[(X\theta-\vec y)^T(X\theta-\vec y)]\\ =&\frac{1}{2}tr[\theta^TX^TX\theta-(\vec y^TX\theta)^T-\vec y^TX\theta+\vec y^T \vec y] \end{aligned} J(θ)====21i=1∑m(θTx(i)−y(i))221(Xθ−y)T(Xθ−y)21tr[(Xθ−y)T(Xθ−y)]21tr[θTXTXθ−(yTXθ)T−yTXθ+yTy]
所以
∇ θ J ( θ ) = 1 2 ∇ θ t r [ θ T X T X θ − ( y ⃗ T X θ ) T − y ⃗ T X θ + y ⃗ T y ⃗ ] = 1 2 [ ∇ θ t r θ T X T X θ − 2 ∇ θ t r y ⃗ T X θ ] = 1 2 [ ∇ θ t r θ c T X T X θ + ∇ θ t r θ T X T X θ c ] − ( y ⃗ T X ) T = X T X θ − X T y ⃗ \begin{aligned} \nabla_\theta J(\theta)=&\frac{1}{2}\nabla_\theta tr[\theta^TX^TX\theta-(\vec y^TX\theta)^T-\vec y^TX\theta+\vec y^T \vec y]\\ =&\frac{1}{2}[\nabla_\theta tr\theta^TX^TX\theta-2\nabla_\theta tr\vec y^TX\theta]\\ =&\frac{1}{2}[\nabla_\theta tr\theta^T_cX^TX\theta+\nabla_\theta tr\theta^TX^TX\theta_c]-(\vec y^TX)^T\\ =&X^TX\theta-X^T\vec y \end{aligned} ∇θJ(θ)====21∇θtr[θT
这篇关于斯坦福CS229(吴恩达授)学习笔记(3)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!