论文略读：Benign Oscillation of Stochastic Gradient Descent with Large Learning Rate

2024-04-15 17:04

文章标签 论文 learning gradient large 略读 rate stochastic descent benign oscillation

本文主要是介绍论文略读：Benign Oscillation of Stochastic Gradient Descent with Large Learning Rate，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

iclr 2024 reviewer评分 368

论文从理论上研究了通过随机梯度下降（SGD）且采用大学习率训练的神经网络（NN）的泛化特性
论文的发现是，由于SGD的大学习率引起的NN权重的振荡，实际上有利于NN的泛化，潜在地优于通过SGD以小学习率训练的、更平滑收敛的相同NN
- ——>将这种现象称为“良性振荡”
论文证明，通过振荡SGD且学习率较大训练的NN可以有效地学习在那些强特征存在的情况下的弱特征。相比之下，通过SGD且学习率较小训练的NN只能学习强特征，而在学习弱特征方面几乎没有进展
- ——>当面对只包含弱特征的新测试数据点时，通过振荡SGD且学习率较大训练的NN仍然可以做出正确的预测，而通过SGD且学习率较小训练的NN则不能

这篇关于论文略读：Benign Oscillation of Stochastic Gradient Descent with Large Learning Rate的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/906400。 23002807@qq.com

相关文章

css渐变色背景|＜gradient示例详解

css渐变色背景|＜gradient示例详解

《css渐变色背景|＜gradient示例详解》CSS渐变是一种从一种颜色平滑过渡到另一种颜色的效果,可以作为元素的背景,它包括线性渐变、径向渐变和锥形渐变，本文介绍css渐变色背景|＜gradien... 使用渐变色作为背景可以直接将渐China编程变色用作元素的背景，可以看做是一种特殊的背景图片。（是作为背

阅读更多...

AI hospital 论文Idea

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境，人类医生（即医学学习者）可以在其中与患者代理进行医学

阅读更多...

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染：一项综述文章目录大规模语言模型的基准数据污染：一项综述摘要1 引言摘要大规模语言模型（LLMs），如GPT-4、Claude-3和Gemini的快

阅读更多...

论文阅读笔记: Segment Anything

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

阅读更多...

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中文章目录验证测试集污染在黑盒语言模型中摘要1 引言摘要大型语言模型是在大量互联网数据上训练的，这引发了人们的担忧和猜测，即它们可能已

阅读更多...

OmniGlue论文详解（特征匹配）

OmniGlue论文详解（特征匹配）

OmniGlue论文详解（特征匹配）摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

阅读更多...

BERT 论文逐段精读【论文精读】

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型，提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练，提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的？使用了哪些 NLP 已有的技术和思想？哪些是 BERT 的创新？ 1标题 + 作者 BERT: Pre-trainin

阅读更多...

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。大语言模型已被广泛采用，但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程，用于Transformer中的前馈和注意力投影层，这可以将推理所需

阅读更多...

Nn criterions don’t compute the gradient w.r.t. targets error「pytorch」 (debug笔记)

Nn criterions don’t compute the gradient w.r.t. targets error「pytorch」 (debug笔记)

Nn criterions don’t compute the gradient w.r.t. targets error「pytorch」 ##一、缘由及解决方法把这个pytorch-ddpg|github搬到jupyter notebook上运行时，出现错误Nn criterions don’t compute the gradient w.r.t. targets error。注：我用

阅读更多...

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界这个世界，小明只能控制自己的加速度，并且只能对加速度进行如下三种操作：增加1、减少1、或者不变。所以行动空间为： { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1=−1,u2=0,u3=1}

阅读更多...