On the Spectral Bias of Neural Networks论文阅读

2024-02-05 09:36

文章标签 阅读论文 bias neural networks spectral

本文主要是介绍On the Spectral Bias of Neural Networks论文阅读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1. 摘要

众所周知，过度参数化的深度神经网络(DNNs)是一种表达能力极强的函数，它甚至可以以100%的训练精度记忆随机数据。这就提出了一个问题，为什么他们不能轻易地对真实数据进行拟合呢。为了回答这个问题，研究人员使用傅里叶分析来研究深层网络。他们证明了具有有限权值(或训练有限步长)的深度网络天生偏向于表示输入空间上的平滑函数。具体地说，深度ReLU网络函数的特定频率分量(k)的衰减速度至少与O(k^2)一样快，宽度和深度分别以多项式和指数的方式帮助建模更高的频率。例如，这说明了为什么DNNs不能完美地记忆峰形三角函数。他们还表明，DNNs可以利用低维数据流形的几何形状，用简单函数近似流形上存在的复杂函数。因此，研究人员发现，所有被网络分类为属于某一类的样本(包括对抗本)都通过一条路径连接，这样网络沿着那条路径的预测就不会改变。最后，一般来说高频分量函数所对应的神经网络参数所占比重较小，这有助于正则化与抗过拟合。

2. 引言

低频信息指的是颜色缓慢变化，代表着连续渐变的一块区域，这部分为低频信息。对于一副图像来说，除去高频就是低频，也就是边缘以内的内容为低频，而边缘内的内容就是图像的大部分信息，即图像的大致概貌和轮廓，是图像的近似信息。

反之，图像边缘的灰度值变化快，就对应着高频。图像的细节处也就是属于灰度值急剧变化的区域，正是因为灰度值的急剧变化，才会出现细节。另外对于噪声，在一个像素所在的位置，之所以是噪点，是因为它与正常的点颜色不一样了，也就是说该像素点灰度值明显不一样，所以是高频部分。

通常，图像的低频是图像中对象的大致概况内容，高频对应噪声和细节。神经网络更倾向于拟合高频信息，而人类主要关注低频信息，然而对低频分量的学习，更有助于网络提高在对抗干扰过程中的鲁棒性。

主要贡献：

利用连续分段线性结构对ReLU网络的傅里叶谱分量进行分析。
发现了谱分量偏差（Spectrum bias）的经验证据，来源于低频分量，然而对低频分量的学习，有助于网络在对抗干扰过程中的鲁棒性。
通过流形理论，给予学习理论框架分析。

3. 实验结果

参考文献

On the Spectral Bias of Neural Networks

On the Spectral Bias of Deep Neural Networks笔记 - 知乎

去芜存三菁，On Spectral Bias of Deep Neural Networks精读上 - 知乎

这篇关于On the Spectral Bias of Neural Networks论文阅读的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/680501。 23002807@qq.com

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来，一站式有声阅读平台听书系统 🌟 开篇：遇见未来，从“智听”开始在这个快节奏的时代，你是否渴望在忙碌的间隙，找到一片属于自己的宁静角落？是否梦想着能随时随地，沉浸在知识的海洋，或是故事的奇幻世界里？今天，就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统，它正悄悄改变着我们的阅读方式，让未来触手可及！ 📚 第一站：海量资源，应有尽有走进“智听

阅读更多...

AI hospital 论文Idea

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境，人类医生（即医学学习者）可以在其中与患者代理进行医学

阅读更多...

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染：一项综述文章目录大规模语言模型的基准数据污染：一项综述摘要1 引言摘要大规模语言模型（LLMs），如GPT-4、Claude-3和Gemini的快

阅读更多...

论文阅读笔记: Segment Anything

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

阅读更多...

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中文章目录验证测试集污染在黑盒语言模型中摘要1 引言摘要大型语言模型是在大量互联网数据上训练的，这引发了人们的担忧和猜测，即它们可能已

阅读更多...

OmniGlue论文详解（特征匹配）

OmniGlue论文详解（特征匹配）

OmniGlue论文详解（特征匹配）摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

阅读更多...

软件架构模式：5 分钟阅读

软件架构模式：5 分钟阅读

原文： https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式：5 分钟阅读当有人潜入软件工程世界时，有一天他需要学习软件架构模式的基础知识。当我刚接触编码时，我不知道从哪里获得简要介绍现有架构模式的资源，这样它就不会太详细和混乱，而是非常抽象和易

阅读更多...

BERT 论文逐段精读【论文精读】

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型，提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练，提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的？使用了哪些 NLP 已有的技术和思想？哪些是 BERT 的创新？ 1标题 + 作者 BERT: Pre-trainin

阅读更多...

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。大语言模型已被广泛采用，但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程，用于Transformer中的前馈和注意力投影层，这可以将推理所需

阅读更多...

【阅读文献】一个使用大语言模型的端到端语音概要

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架（Speech Summarization）为了从说话人的语音提出对应的文本二题出。 ssum面临的挑战：控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架使用 Q-Former 作为语音和文本的中介连接，并且使用LLMs去从语音特征正确地产生文本。采取 multi-st

阅读更多...