LLM 模型压缩之三: FoldGPT

2024-09-03 09:20

文章标签 模型 llm 压缩之三 foldgpt

本文主要是介绍LLM 模型压缩之三: FoldGPT，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

0. 资源链接

论文: FoldGPT: Simple and Effective Large Language Model Compression Scheme
项目: to be released.

1. 背景动机

现有的大语言模型推理存在以下问题：

LLM 模型因为有大量的参数，以及 next token 的预测方式，导致 LLM 模型推理慢，计算消耗大。
模型压缩，量化和蒸馏等技术用来加速 LLM 模型推理；以及目前有许多端侧 LLM 推理的需求对大模型推理时延很高，需要尽可能降低 LLM 的推理时延，目前的加速技术仍然存在挑战。
目前压缩模型技术主要分析，剪枝模型宽度存在的冗余性，但是模型的finetune 仍然需要消耗较多算力。
目前有一些工作如 ShortGPT 等工作发现 LLM 在深度存在冗余计算，在深度剪枝取得不错的效果。

2. 内容提要

本文分析了LLM blocks 输出的值的相似度，发现在深度维度上存在大量冗余。
本文提出一个叫做 FoldGPT 方法，主要由模块去除和模块共享技术。
本文设计一种可学习的重要度度量来对 LLM block 重要性排序，用于去除不重要模块。
本文通过大量实验验证了 FoldGPT 的有效性，在不少模型上取得 SOTA 压缩效果。

3. 技术细节

FoldGPT 包含4个主要部分：Redundancy analysis，Gated block removal，Grouped parameter sharing 和 Distillation fine-tuning。

3.1 Redundancy analysis

通过分析 block 输入输出的相似度，可以发现不同 model 都存在深度的冗余性。

3.2 Gated block removal

由于之前 ShortGPT BI score 方法忽略模块之间的影响，所以不能找到全局最优的模块去除策略。
本文通过引入学习的门控系数来学习模块之间去除影响重要性。
通过实验对比发现 FoldGPT 效果要远好于 ShortGPT BI score。

3.3 Grouped parameter sharing

通过 group方式，让group 内的block share weights，为了保持精度，增加少量可学习参数来微调模型。

3.4 Distillation fine-tuning

通过 Lora 微调提高精度。

4. 实验结果

FoldGPT 效果要好于 ShortGPT，同时通过 finetune 压缩效果会更好。

5. 一些思考

FoldGPT 针对 ShortGPT BI score 存在的问题，提出可学习的 Gated block score 来找出 less import blocks。
通过参数共享和微调的技术进一步提高模型推理速度。

这篇关于LLM 模型压缩之三: FoldGPT的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1132615。 23002807@qq.com

相关文章

SpringBoot使用GZIP压缩反回数据问题

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》：本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么，可以干什么？3、Spr

阅读更多...

Spring Security基于数据库的ABAC属性权限模型实战开发教程

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》：本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

阅读更多...

Java图片压缩三种高效压缩方案详细解析

Java图片压缩三种高效压缩方案详细解析

《Java图片压缩三种高效压缩方案详细解析》图片压缩通常涉及减少图片的尺寸缩放、调整图片的质量(针对JPEG、PNG等)、使用特定的算法来减少图片的数据量等,：本文主要介绍Java图片压缩三种高效... 目录一、基于OpenCV的智能尺寸压缩技术亮点：适用场景：二、JPEG质量参数压缩关键技术：压缩效果对比

阅读更多...

SpringBoot3实现Gzip压缩优化的技术指南

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

阅读更多...

一文详解SpringBoot响应压缩功能的配置与优化

一文详解SpringBoot响应压缩功能的配置与优化

《一文详解SpringBoot响应压缩功能的配置与优化》SpringBoot的响应压缩功能基于智能协商机制,需同时满足很多条件,本文主要为大家详细介绍了SpringBoot响应压缩功能的配置与优化,需... 目录一、核心工作机制1.1 自动协商触发条件1.2 压缩处理流程二、配置方案详解2.1 基础YAML

阅读更多...

Java的IO模型、Netty原理解析

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容：标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO（blocking I/O）NI

阅读更多...

基于Flask框架添加多个AI模型的API并进行交互

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》：本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

阅读更多...

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

《Python实现将MySQL中所有表的数据都导出为CSV文件并压缩》这篇文章主要为大家详细介绍了如何使用Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到... python将mysql数据库中所有表的数据都导出为CSV文件到一个目录，并压缩为zip文件到另一个

阅读更多...

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

阅读更多...

SpringBoot快速接入OpenAI大模型的方法(JDK8)

SpringBoot快速接入OpenAI大模型的方法(JDK8)

《SpringBoot快速接入OpenAI大模型的方法(JDK8)》本文介绍了如何使用AI4J快速接入OpenAI大模型,并展示了如何实现流式与非流式的输出,以及对函数调用的使用,AI4J支持JDK8... 目录使用AI4J快速接入OpenAI大模型介绍AI4J-github快速使用创建SpringBoot

阅读更多...