本文主要是介绍Optimization之GD,Newton Method,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
- gradient descent
- Newtons Method
- Momentum
- Adagrad
- RMSProp
- Adam
转载请注明出处: http://blog.csdn.net/c602273091/article/details/79111771
机器学习或者是深度学习中涉及了不少优化理论,那么问题来了,在机器学习中,它优化的目标是什么?它是如何进行优化的?为什么进行这种优化?这种优化的好处以及坏处?以及这种优化方法适合什么情况?最近在上CMU 18-660 Optimization的课程,一开始看的Convexity看得我一脸懵逼,老师讲得慢,今年这个新来的老师把phd的10-725的课程搬了过来,它已经不是以前的水课了。所以我开始学习优化理论,从简单的GD和Newton Method入手感受一下【6】。
Learning可以说是机器学习的核心,而学习的过程的过程需要用到optimization这个工具。这篇文章主要是介绍了梯度下降和牛顿迭代法,顺带着用几句话介绍了牛顿迭代法的改进以及矩阵分解。
gradient descent
上面的式子结果是什么?如果没有理解透GD的话,以上这个可能都会算错。搞混了Lapalace Operator和Hessian Matrix也会搞错。
第一个求的是梯度,那么什么是梯度?梯度就是当前值往变量所在增长方向变化最快的数值,梯度是一个响亮,函数中有几个变量,那么梯度就是几维的向量。所以结果就是一个向量:(忘记了常用导数求导公式【15】)
[2∗x+cos(y),−x∗sin(y)]
这篇关于Optimization之GD,Newton Method的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!