梯度下降(Gradient Descent)原理以及Python代码

2024-05-26 08:48

本文主要是介绍梯度下降(Gradient Descent)原理以及Python代码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

给定一个函数f(x),我们想知道当x是值是多少的时候使这个函数达到最小值。为了实现这个目标,我们可以使用梯度下降(Gradient Descent)进行近似求解。

梯度下降是一个迭代算法,具体地,下一次迭代令

x_{n+1} = x_{n} - \eta {f}'(x_{n})

{f}'(x)是梯度,其中\eta是学习率(learning rate),代表这一轮迭代使用多少负梯度进行更新。梯度下降非常简单有效,但是其中的原理是怎么样呢?

原理

为什么每次使用负梯度进行更新呢?这要从泰勒公式(Taylor's formula)说起:

f(x) = f(x_{0}) + \frac{​{f}'(x_{0})}{1!}(x-x_{0}) + \frac{f{}''(x_{0})}{2!}(x-x_{0}) + ...

泰勒公式的目的是使用x-x_{0}的多项式去逼近函数f(x),这里可以理解泰勒公式在x-x_{0}的展开是原函数的一个近似函数。

那泰勒公式跟梯度下降有什么关系呢?

我们的目标是使f(x_{n+1})\leq f(x_{n}),我们对f(x_{n+1})x_{n}处进行一阶泰勒展开:

f(x_{n+1}) \approx f(x_{n}) + {f}'(x_{n})(x_{n+1}-x_{n})

由此可知,我们只需令x_{n+1}-x_{n} = -{f}'(x_{n}),就会使f(x_{n+1})\leq f(x_{n})

所以迭代公式可以为x_{n+1}= x_{n} -\eta {f}'(x_{n})

案例

下面我们看具体例子,假设我们有以下函数

f(x) = \frac{1}{2}\left \| Ax-b \right \|^2

矩阵和A向量b已知,我们想知道当x取值为多少的时候,函数f(x)的值最小。

根据梯度下降法,我们只需计算出负梯度,然给定一个初始值x_{0},不断迭代就能找到一个近似解了。负梯度计算如下:

{f}'(x) =A ^{T}(Ax-b)=A ^{T}Ax-A ^{T}b

接下来让我写一段代码解决这个问题

定义梯度下降函数

首先,定义cal_gradient函数用来计算梯度,然后使用gradient_decent进行迭代,其中learning_rate就是公式中的\eta,这个值需要合理设置,过大的话会导致震荡,过下的话又会导致迭代时间过长。step代表迭代的次数,理想情况下找到满意的解就停止。

我们会在代码中调整这两个参数查看它们对求解过程的影响。

import numpy as np
import time#calculate gradient
def cal_gradient(A, b, x):left = np.dot(np.dot(A.T, A), x)right = np.dot(A.T, b)gradient = left - rightreturn gradient# iteration
def gradient_decent(x, A, b, learning_rate, step):start = time.time()for i in range(step):gradient = cal_gradient(A, b, x)delta = learning_rate * gradientx = x - deltaend = time.time()time_cost = round(end - start, 4)print('done! x = {a}, time cost = {b}s'.format(a=x, b=time_cost))

求解过程

我们给了矩阵和A向量b的值以及标准答案 [29, 16, 3],然后我们随机初始化一个x_{0},让学习率\eta =0.01,迭代次数step=1000000

A = np.array([[1.0, -2.0, 1.0], [0.0, 2.0, -8.0], [-4.0, 5.0, 9.0]])
b = np.array([0.0, 8.0, -9.0])
# Giveb A and b,the solution x is [29, 16, 3]x0 = np.array([1.0, 1.0, 1.0])
learning_rate = 0.01
step = 1000000gradient_decent(x0, A, b, learning_rate, step)

结果

以下为结果,可以看出求得的近似解和标准答案 [29, 16, 3]还是非常接近的。

done! x = [28.98272933 15.99042465  2.99763054], time cost = 4.6037s

调整学习率

其他参数都一样,我们让学习率变小,运行相同的步数,从以下结果看到求得的近似解跟标准答案还有一定差距。这意味着小的过小学习率需要学习更久的时间。

learning_rate = 0.001# result
# done! x = [15.8048349   8.68422815  1.18968306], time cost = 4.5997s

调整初始值

我们只调整初始值,学习相同的步数,发现求得的近似解尽管与标准答案相似,但是不如第一个方法求得解。这说明梯度下降方法也会受到初始值得影响。

x0 = np.array([1000, 1000, 1000])# result
# done! x = [29.78036839 16.43265826  3.10706301], time cost = 4.5528s

总结

梯度下降方法是一种非常有效的优化方法,它的效果会受到初始值、学习率、步数的影响。如果要说缺点的话,就是它容易找到局部最优解,有时候会发生震荡现象。

 

参考

https://sm1les.com/2019/03/01/gradient-descent-and-newton-method/

这篇关于梯度下降(Gradient Descent)原理以及Python代码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1003996

相关文章

uniapp接入微信小程序原生代码配置方案(优化版)

uniapp项目需要把微信小程序原生语法的功能代码嵌套过来,无需把原生代码转换为uniapp,可以配置拷贝的方式集成过来 1、拷贝代码包到src目录 2、vue.config.js中配置原生代码包直接拷贝到编译目录中 3、pages.json中配置分包目录,原生入口组件的路径 4、manifest.json中配置分包,使用原生组件 5、需要把原生代码包里的页面修改成组件的方

公共筛选组件(二次封装antd)支持代码提示

如果项目是基于antd组件库为基础搭建,可使用此公共筛选组件 使用到的库 npm i antdnpm i lodash-esnpm i @types/lodash-es -D /components/CommonSearch index.tsx import React from 'react';import { Button, Card, Form } from 'antd'

17.用300行代码手写初体验Spring V1.0版本

1.1.课程目标 1、了解看源码最有效的方式,先猜测后验证,不要一开始就去调试代码。 2、浓缩就是精华,用 300行最简洁的代码 提炼Spring的基本设计思想。 3、掌握Spring框架的基本脉络。 1.2.内容定位 1、 具有1年以上的SpringMVC使用经验。 2、 希望深入了解Spring源码的人群,对 Spring有一个整体的宏观感受。 3、 全程手写实现SpringM

Python 字符串占位

在Python中,可以使用字符串的格式化方法来实现字符串的占位。常见的方法有百分号操作符 % 以及 str.format() 方法 百分号操作符 % name = "张三"age = 20message = "我叫%s,今年%d岁。" % (name, age)print(message) # 我叫张三,今年20岁。 str.format() 方法 name = "张三"age

代码随想录算法训练营:12/60

非科班学习算法day12 | LeetCode150:逆波兰表达式 ,Leetcode239: 滑动窗口最大值  目录 介绍 一、基础概念补充: 1.c++字符串转为数字 1. std::stoi, std::stol, std::stoll, std::stoul, std::stoull(最常用) 2. std::stringstream 3. std::atoi, std

记录AS混淆代码模板

开启混淆得先在build.gradle文件中把 minifyEnabled false改成true,以及shrinkResources true//去除无用的resource文件 这些是写在proguard-rules.pro文件内的 指定代码的压缩级别 -optimizationpasses 5 包明不混合大小写 -dontusemixedcaseclassnames 不去忽略非公共

一道经典Python程序样例带你飞速掌握Python的字典和列表

Python中的列表(list)和字典(dict)是两种常用的数据结构,它们在数据组织和存储方面有很大的不同。 列表(List) 列表是Python中的一种有序集合,可以随时添加和删除其中的元素。列表中的元素可以是任何数据类型,包括数字、字符串、其他列表等。列表使用方括号[]表示,元素之间用逗号,分隔。 定义和使用 # 定义一个列表 fruits = ['apple', 'banana

Python应用开发——30天学习Streamlit Python包进行APP的构建(9)

st.area_chart 显示区域图。 这是围绕 st.altair_chart 的语法糖。主要区别在于该命令使用数据自身的列和指数来计算图表的 Altair 规格。因此,在许多 "只需绘制此图 "的情况下,该命令更易于使用,但可定制性较差。 如果 st.area_chart 无法正确猜测数据规格,请尝试使用 st.altair_chart 指定所需的图表。 Function signa

麻了!一觉醒来,代码全挂了。。

作为⼀名程序员,相信大家平时都有代码托管的需求。 相信有不少同学或者团队都习惯把自己的代码托管到GitHub平台上。 但是GitHub大家知道,经常在访问速度这方面并不是很快,有时候因为网络问题甚至根本连网站都打不开了,所以导致使用体验并不友好。 经常一觉醒来,居然发现我竟然看不到我自己上传的代码了。。 那在国内,除了GitHub,另外还有一个比较常用的Gitee平台也可以用于

python实现最简单循环神经网络(RNNs)

Recurrent Neural Networks(RNNs) 的模型: 上图中红色部分是输入向量。文本、单词、数据都是输入,在网络里都以向量的形式进行表示。 绿色部分是隐藏向量。是加工处理过程。 蓝色部分是输出向量。 python代码表示如下: rnn = RNN()y = rnn.step(x) # x为输入向量,y为输出向量 RNNs神经网络由神经元组成, python