神经网络算法 - 一文搞懂Gradient Descent(梯度下降)

2024-08-24 12:12

本文主要是介绍神经网络算法 - 一文搞懂Gradient Descent(梯度下降),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文将从梯度下降的本质、梯度下降的原理、梯度下降的算法 三个方面,带您一文搞懂梯度下降 Gradient Descent | GD。

梯度下降

**__**一、**__**_****_**_**梯度下降的**_**本质_****_

机器学习“三板斧选择模型家族,定义损失函数量化预测误差,通过优化算法找到最小化损失的最优模型参数。

机器学习 vs 人类学习

  • 定义一个函数集合(模型选择)

  • 目标:确定一个合适的假设空间或模型家族。

  • 示例:线性回归、逻辑回归、神经网络、决策树等。

  • 考虑因素:问题的复杂性、数据的性质、计算资源等。

  • 判断函数的好坏(损失函数)

  • 目标:量化模型预测与真实结果之间的差异。

  • 示例:均方误差(MSE)用于回归;交叉熵损失用于分类。

  • 考虑因素:损失的性质(凸性、可微性等)、易于优化、对异常值的鲁棒性等。

  • 选择最好的函数(优化算法)

  • 目标:在函数集合中找到最小化损失函数的模型参数。

  • 主要方法:梯度下降及其变种(随机梯度下降、批量梯度下降、Adam等)。

  • 考虑因素:收敛速度、计算效率、参数调整的复杂性等。

梯度下降的本质: 用于求解机器学习和深度学习中的最优化问题。

梯度下降的基本思想是从一个初始点出发,沿着损失函数的负梯度方向不断更新参数,直到达到一个局部最小值或者全局最小值。

梯度下降的基本思想

  • 初始化参数: 选择一个初始的参数值。

  • 计算梯度: 计算损失函数在当前参数值下的梯度。

  • 更新参数: 沿着梯度的反方向更新参数,通常使用一个学习率(Learning Rate)来控制更新的步长。

  • 重复迭代: 重复步骤2和3,直到满足停止条件(如达到最大迭代次数、损失函数值小于一个阈值等)。

梯度下降的关键步骤

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈


_**二、_**_**_**_****_**_**梯度下降的**_**原理_****_**_**_**_**_

在梯度下降中,利用方向导数的最小值(即梯度的反方向)来更新参数,从而逼近函数的最小值。

方向导数:在梯度下降算法中,方向导数用于确定函数值下降的最快方向。

  • 定义:方向导数是函数在某一点沿特定方向的变化率。对于多元函数,它表示函数值在该点沿某一确定方向上的瞬时变化率。

  • 性质:方向导数的大小取决于函数在该点的梯度以及方向向量的选择。当方向向量与梯度方向相同时,方向导数达到最大值;当方向向量与梯度方向相反时,方向导数达到最小值。

  • 与梯度下降的关系:在梯度下降算法中,方向导数用于确定函数值下降的最快方向。通过计算负梯度方向上的方向导数,可以找到使函数值减小的方向,从而更新参数以逼近函数的最小值。

方向导数

梯度(Gradient):在梯度下降算法中,梯度提供了函数下降的方向和速度信息。

  • 定义:梯度是一个向量,它的每个分量是函数对相应自变量的偏导数。对于多元函数,梯度表示函数在某一点的最大变化率和该变化发生的方向。

  • 性质:梯度的方向总是指向函数值增长最快的方向,而梯度的大小(模长)表示该方向上的最大变化率。在函数的驻点(梯度为零的点)处,函数可能达到局部极小值、局部极大值或鞍点。

  • 与梯度下降的关系:梯度下降算法利用梯度的信息来更新参数,以最小化目标函数。在每一步迭代中,算法计算当前点的梯度,并沿着梯度的反方向(负梯度方向)移动一定的步长,这个步长通常由学习率控制。

梯度

_**三、梯度下降的****___**_******___**_****_**_算法_**_****_**___******_**___******_

__

批量梯度下降(BGD): 在每次迭代中,批量梯度下降使用整个数据集来计算损失函数的梯度,并根据这个梯度来更新模型的所有参数。

批量梯度下降(BGD)

  • 优点:

    稳定收敛:由于使用了整个数据集来计算梯度,批量梯度下降通常能够更稳定地收敛到损失函数的最小值,避免了在优化过程中的剧烈波动。

    全局视角:它考虑了数据集中的所有样本来进行参数更新,这有助于模型获得一个全局的视角,而不是仅仅关注于单个样本或一小部分样本。

    易于实现:批量梯度下降算法相对简单,容易理解和实现。

  • 缺点:

    计算成本高:当数据集非常大时,批量梯度下降的计算成本会变得非常高,因为每次迭代都需要处理整个数据集。

    内存消耗大:由于需要同时加载整个数据集到内存中,批量梯度下降对于内存的需求也相对较高。

    更新速度慢:由于每次更新都是基于整个数据集的平均梯度,因此在某些情况下,批量梯度下降可能会比随机梯度下降更慢地更新参数。

随机梯度下降(SGD): 与批量梯度下降不同,随机梯度下降在每次迭代中仅随机选择一个样本来计算损失函数的梯度,并根据这个梯度来更新模型的一个或多个参数。

随机梯度下降(SGD)

优点:

  1. 计算效率高:由于每次迭代只处理一个样本,随机梯度下降的计算效率通常比批量梯度下降高得多,特别是在处理大规模数据集时。

  2. 内存消耗小:随机梯度下降只需要加载一个样本到内存中,因此对于内存的需求相对较低。

  3. 有助于跳出局部最小值:由于每次更新都是基于单个样本的梯度,随机梯度下降在优化过程中具有更大的随机性,这有助于模型跳出局部最小值,找到更好的全局最小值。

缺点:

  1. 收敛过程不稳定:由于每次更新都是基于单个样本的梯度,随机梯度下降的收敛过程通常比批量梯度下降更不稳定,可能会产生较大的波动。

  2. 难以达到全局最优:在某些情况下,随机梯度下降可能会陷入局部最小值,而无法达到全局最优解。

  3. 需要额外的技巧:为了提高随机梯度下降的性能和稳定性,通常需要采用一些额外的技巧,如逐渐减小学习率(学习率衰减)、使用动量等。

在大模型时代,我们如何有效的去学习大模型?

现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术,也_想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把都打包整理好,希望能够真正帮助到大家_。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,下面是我整理好的一套完整的学习路线,希望能够帮助到你们学习AI大模型。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

三、AI大模型经典PDF书籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

四、AI大模型各大场景实战案例

在这里插入图片描述

结语

【一一AGI大模型学习 所有资源获取处(无偿领取)一一】
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模型入门+进阶学习资源包》,扫码获取~

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

这篇关于神经网络算法 - 一文搞懂Gradient Descent(梯度下降)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1102451

相关文章

一文带你理解Python中import机制与importlib的妙用

《一文带你理解Python中import机制与importlib的妙用》在Python编程的世界里,import语句是开发者最常用的工具之一,它就像一把钥匙,打开了通往各种功能和库的大门,下面就跟随小... 目录一、python import机制概述1.1 import语句的基本用法1.2 模块缓存机制1.

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

一文带你搞懂Nginx中的配置文件

《一文带你搞懂Nginx中的配置文件》Nginx(发音为“engine-x”)是一款高性能的Web服务器、反向代理服务器和负载均衡器,广泛应用于全球各类网站和应用中,下面就跟随小编一起来了解下如何... 目录摘要一、Nginx 配置文件结构概述二、全局配置(Global Configuration)1. w

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

poj 3974 and hdu 3068 最长回文串的O(n)解法(Manacher算法)

求一段字符串中的最长回文串。 因为数据量比较大,用原来的O(n^2)会爆。 小白上的O(n^2)解法代码:TLE啦~ #include<stdio.h>#include<string.h>const int Maxn = 1000000;char s[Maxn];int main(){char e[] = {"END"};while(scanf("%s", s) != EO

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}