adagrad: 对于每一个 wti w i t w_i^t,都由前t-1对 wi w i w_i的梯度和的平方加上本次对 wi w i w_i梯度的平方再开根号。用这个值去除η。 缺点,随着update的次数增多,learning rate会变得特别小,最终导致提前结束训练。 δ是个小常数,通常设为10^-7。这个是防止右值太小的话稳定学习率。 RMSProp: 对于α我
本文是Deep Learning 之 最优化方法系列文章的AdaGrad方法。主要参考Deep Learning 一书。 整个优化系列文章列表: Deep Learning 之 最优化方法 Deep Learning 最优化方法之SGD Deep Learning 最优化方法之Momentum(动量) Deep Learning 最优化方法之Nesterov(牛顿动量) Deep Learni