ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models

2024-04-11 08:52

文章标签 models language relu back large activation exploiting strikes sparsity

本文主要是介绍ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

iclr 2024 oral reviewer 评分 688

1 intro

目前LLM社区中通常使用GELU和SiLU来作为替代激活函数，它们在某些情况下可以提高LLM的预测准确率
但从节省模型计算量的角度考虑，论文认为经典的ReLU函数对模型收敛和性能的影响可以忽略不计，同时可以显着减少计算和权重IO量\
-

2 激活函数影响效果吗?

选用了开源的大模型 OPT,Llama和Falcon
训练数据使用RefinedWeb
分别进行了预训练和finetune两个实验

2.1 不同激活函数对比

2.2 平均激活稀疏度

2.3 从头训练,各个激活函数的效果

使用不同的激活函数时，模型的性能非常相似。

3 ReLU充当预训练LLM的润滑剂

通过上一节的实验，LLM的预测准确率并不依赖于激活函数的类型
但现有大多数LLM均使用ReLU之外的激活函数进行训练
- —>为了在推理阶段使这些LLM结合ReLU激活的计算优势，论文进行了各种架构改进实验
  - 将ReLU插入到预训练LLM中，模型在微调过程中可能快速的恢复性能，同时提高推理时的稀疏性
  - 作者将这一过程称为对LLM的“再润滑”（ReLUfication）

3.1 阶段1:替换非ReLU激活函数成ReLU

阶段1:使用ReLU替换到LLM中的其他激活函数
- 在Falcon 和 Llama分别替换 GELU 和 SiLU
- 由于 OPT 模型已经使用 ReLU 激活，因此这里保持不变

3.1.1 替换后的激活稀疏程度

3.1.2 替换后的网络预测倾向

论文测量了Falcon 和 Llama 预训练模型的预激活分布情况
可以看出，在微调阶段，这个分布本身的变化并不明显
——>表明网络的预测倾向在引入稀疏性时并不会改变，具有良好的稳定性

3.1.4 模型预测准确率随ReLU不断微调的变化情况

模型在微调阶段很快恢复了其原本的性能，其中Llama（绿色线条）完美的达到了ReLU插入之前的预测准确率

3.2阶段2:进一步稀疏化

在一阶段中，作者插入了ReLU来替代其他激活函数，这会导致模型down projection层的输入变稀疏
除了down projection层之外，transformer的解码器层中还有其他复杂的矩阵向量乘法
- 例如注意力层中的QKV projection，这些矩阵向量乘法大约占总计算量的约 55%
- ——>对这一部分进行二次稀疏也非常重要
在现代transformer层中，注意力层和 FFN 层的输入都来自归一化层（LayerNorm）
- 这些层可以被视为 MLP 的一种特定形式，因为它们并不是学习参数，而是学习如何对输入数据进行缩放
- ——>将ReLU接在归一化层之后来进行二阶段的稀疏激活

3.2.1 进一步稀疏化之后,模型的稀疏程度和zero-shot预测精度

对LLM的不同部位进行稀疏化后，模型的zero-shot精度变化并不明显，但是计算量的差异很大

这篇关于ReLU Strikes Back: Exploiting Activation Sparsity in Large Language Models的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/893619。 23002807@qq.com

相关文章

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染：一项综述文章目录大规模语言模型的基准数据污染：一项综述摘要1 引言摘要大规模语言模型（LLMs），如GPT-4、Claude-3和Gemini的快

阅读更多...

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中文章目录验证测试集污染在黑盒语言模型中摘要1 引言摘要大型语言模型是在大量互联网数据上训练的，这引发了人们的担忧和猜测，即它们可能已

阅读更多...

UML- 统一建模语言（Unified Modeling Language）创建项目的序列图及类图

UML- 统一建模语言（Unified Modeling Language）创建项目的序列图及类图

陈科肇 ============= 1.主要模型在UML系统开发中有三个主要的模型：功能模型：从用户的角度展示系统的功能，包括用例图。对象模型：采用对象、属性、操作、关联等概念展示系统的结构和基础，包括类图、对象图、包图。动态模型：展现系统的内部行为。包括序列图、活动图、状态图。因为要创建个人空间项目并不是一个很大的项目，我这里只须关注两种图的创建就可以了，而在开始创建UML图

阅读更多...

速通GPT-3：Language Models are Few-Shot Learners全文解读

速通GPT-3：Language Models are Few-Shot Learners全文解读

文章目录论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

阅读更多...

高精度打表-Factoring Large Numbers

高精度打表-Factoring Large Numbers

求斐波那契数，不打表的话会超时，打表的话普通的高精度开不出来那么大的数组，不如一个int存8位，特殊处理一下，具体看代码 #include<stdio.h>#include<string.h>#define MAX_SIZE 5005#define LEN 150#define to 100000000/*一个int存8位*/int num[MAX_SIZE][LEN];void

阅读更多...

[论文笔记]Making Large Language Models A Better Foundation For Dense Retrieval

[论文笔记]Making Large Language Models A Better Foundation For Dense Retrieval

引言今天带来北京智源研究院(BAAI)团队带来的一篇关于如何微调LLM变成密集检索器的论文笔记——Making Large Language Models A Better Foundation For Dense Retrieval。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。密集检索需要学习具有区分性的文本嵌入，以表示查询和文档之间的语义关系。考虑到大语言模

阅读更多...

Flink Back Pressure

Flink Back Pressure

什么是 Back Pressure 如果看到任务的背压警告（如 High 级别），这意味着生成数据的速度比下游算子消费的的速度快。以一个简单的 Source -> Sink 作业为例。如果能看到 Source 有警告，这意味着 Sink 消耗数据的速度比 Source 生成速度慢。Sink 正在向 Source 施加反压。许多情况都会导致背压。例如，GC导致传入数据堆积，或者数据源在发送数

阅读更多...

ModuleNotFoundError: No module named ‘diffusers.models.dual_transformer_2d‘解决方法

ModuleNotFoundError: No module named ‘diffusers.models.dual_transformer_2d‘解决方法

Python应用运行报错，部分错误信息如下： Traceback (most recent call last): File “\pipelines_ootd\unet_vton_2d_blocks.py”, line 29, in from diffusers.models.dual_transformer_2d import DualTransformer2DModel ModuleNotF

阅读更多...

阅读笔记--Guiding Attention in End-to-End Driving Models

阅读笔记--Guiding Attention in End-to-End Driving Models

作者：Diego Porres1, Yi Xiao1, Gabriel Villalonga1, Alexandre Levy1, Antonio M. L ́ opez1,2 出版时间：arXiv:2405.00242v1 [cs.CV] 30 Apr 2024 这篇论文研究了如何引导基于视觉的端到端自动驾驶模型的注意力，以提高它们的驾驶质量和获得更直观的激活图。摘要介绍

阅读更多...

【HDU】 4089 Activation 概率DP

【HDU】 4089 Activation 概率DP

题目大意：Tomato要玩一个游戏，他需要排队，一开始这个队列共有N个人，而他在队列的第M个位置，每当有玩家尝试激活登陆游戏时，会概率性触发四个事件。p1的概率注册失败，队列无变化。p2的概率连接失败，排在队首的人排到队尾。p3的概率成功，队首出队。p4的概率服务器瘫痪，停止激活！这时候如果排在Tomato前面的人不足K个，那么他会很气愤。问 : Tomato排在第k位以内服务器瘫痪的概率。

阅读更多...