LLM推理部署(五):AirLLM使用4G显存即可在70B大模型上进行推理

2023-12-04 06:36

本文主要是介绍LLM推理部署(五):AirLLM使用4G显存即可在70B大模型上进行推理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

       众所周知,大模型的训练和推理需要大量的GPU资源,70B参数的大模型需要130G的GPU显存来存储,需要两个A100(显存为100G)。

​      在推理过程中,整个输入序列也需要加载到内存中进行复杂的“注意力”计算,这种注意力机制的内存需求与输入长度成二次方关系。

一、分层推理(Layer-wise Inference)

       分层推理是计算机科学中分而治之的基本方法。今天的大型语言模型都采用谷歌论文《Attention is all you need》中提出的多头自注意力结构,这就是人们后来所说的Transformer结构,Transformer结构如下图所示:

       大型语言模型首先是embedding投影层,之后是80个完全相同的transformer层,每个transformer层有一个LN和MLP层来预测token ID概率。

      在推理过程中,层按顺序执行,上一层的输出是下一层的输入,一次只执行一个层。因此,完全没有必要将所有层都保存在GPU内存中。我们可以在执行该层时从磁盘加载所需的任何层,进行所有计算,然后完全释放内存。这样,每层所需的GPU内存仅为一个transformer层的参数大小,即整个模型的1/80,约1.6GB。

       此外,一些输出缓存也存储在GPU内存中,最大的是KV缓存,以避免重复计算。对于70B模型,这个KV缓存大小大约是:

             2*input_length*num_layers*num_heads*vector_dim*4

输入长度为100时,此缓存=2*100*80*8*128*4=30MB GPU内存。

二、Flash Attention

       Flash attention可能是当今大型语言模型开发中最重要、最关键的优化之一,几乎所有的大型语言模型都采用该技术来优化。Flash attention思想受论文《Self-attention Does Not Need O(n²) Memory》启发,最初self-attention需要O(n²)内存(n是序列长度),论文认为实际上不需要保留O(n²)的中间结果,我们可以按顺序计算它们,不断更新一个中间结果,并丢弃其他所有结果,这将内存复杂性降低到O(logn)。

      Flash attention本质上是相似的,内存复杂度O(n)略高,但 Flash attention深度优化了cuda内存访问,实现了推理和训练的多倍加速。

       如图所示,最初的self-attention计算并存储O(n²)中间结果。Flash attention将计算拆分为许多小块,逐块计算,并将内存减少到一个块的大小。

三、模型文件共享

       原始模型文件通常被分为多个块,通常每个块10GB。我们的执行过程是一层一层的。每层只有1.6GB。如果我们基于原始10GB碎片进行加载,则每层执行都需要重新加载整个10GB文件,但仅使用1.6GB。这个过程浪费了大量用于加载和磁盘读取的内存。磁盘读取速度实际上是整个推理过程中最慢的瓶颈,所以我们希望尽可能地将其最小化。因此,我们首先对原始的HuggingFace模型文件进行预处理,并对其进行分层分割。

       对于存储,我们使用安全张量技术(https://github.com/huggingface/safetensors)。Safetensor确保存储格式和内存中格式紧密匹配,并使用内存映射进行加载以最大限度地提高速度。

四、元设备(Meta Device)

      我们使用HuggingFace Accelerate提供的Meta Device功能(https://huggingface.co/docs/accelerate/usage\\_guides/bigh\\_modeling)来实施。Meta Device是一种专门为运行超大型模型而设计的虚拟设备。当您通过Meta Device加载模型时,模型数据实际上并没有被读入,只是加载了代码,内存使用率为0。

       在执行过程中,您可以将模型的部分内容从Meta Device动态转移到CPU或GPU等真实设备。只有到那时,它才真正加载到内存中。

        使用init_empty_weights()可以通过Meta Device加载模型,代码如下:

from accelerate import init_empty_weightswith init_empty_weights():    my_model = ModelClass(...)

五、开源项目

       上述所有技术已经集成到AirLLM(https://github.com/lyogavin/anima/tree/main/air_llm)。使用参考如下:

       首先安装程序包:

pip install airllm

       像传统的Transformer模型一样执行分层推理,代码如下:

from airllm import AirLLMLlama2MAX_LENGTH = 128# could use hugging face model repo id:model = AirLLMLlama2("garage-bAInd/Platypus2-70B-instruct")# or use model's local path...#model = AirLLMLlama2("/home/ubuntu/.cache/huggingface/hub/models--garage-bAInd--Platypus2-70B-instruct/snapshots/b585e74bcaae02e52665d9ac6d23f4d0dbc81a0f")input_text = [        'What is the capital of United States?',    ]input_tokens = model.tokenizer(input_text,    return_tensors="pt",     return_attention_mask=False,     truncation=True,     max_length=MAX_LENGTH,     padding=True)           generation_output = model.generate(    input_tokens['input_ids'].cuda(),     max_new_tokens=20,    use_cache=True,    return_dict_in_generate=True)output = model.tokenizer.decode(generation_output.sequences[0])print(output)

       我们已经在16GB的Nvidia T4 GPU上测试了此代码。整个推理过程使用的GPU内存不足4GB。

PS:像T4这样的低端GPU的推理速度将相当慢。不太适合聊天机器人等交互式场景。更适合一些离线数据分析,如RAG、PDF分析等。目前仅支持基于Llam2的型号。

六、70B训练可以在单个GPU上进行吗?

       虽然推理可以通过分层进行优化,但训练在单个GPU上也能类似地工作吗?

       在执行下一个transformer层时,推理只需要上一层的输出,因此可以使用有限的数据进行分层执行。训练需要更多的数据,训练过程首先计算正向传播,得到每一层和张量的输出,然后进行反向传播来计算每个张量的梯度,梯度计算需要保存之前正向层的结果,因此分层执行不会减少内存。

       还有一些其他技术,如梯度检查点,可以实现类似的效果。

参考文献:

[1] https://ai.gopubby.com/unbelievable-run-70b-llm-inference-on-a-single-4gb-gpu-with-this-new-technique-93e2057c7eeb

[2] https://www.kaggle.com/code/simjeg/platypus2-70b-with-wikipedia-rag/notebook

这篇关于LLM推理部署(五):AirLLM使用4G显存即可在70B大模型上进行推理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/452507

相关文章

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

使用Python实现图像LBP特征提取的操作方法

《使用Python实现图像LBP特征提取的操作方法》LBP特征叫做局部二值模式,常用于纹理特征提取,并在纹理分类中具有较强的区分能力,本文给大家介绍了如何使用Python实现图像LBP特征提取的操作方... 目录一、LBP特征介绍二、LBP特征描述三、一些改进版本的LBP1.圆形LBP算子2.旋转不变的LB

Maven的使用和配置国内源的保姆级教程

《Maven的使用和配置国内源的保姆级教程》Maven是⼀个项目管理工具,基于POM(ProjectObjectModel,项目对象模型)的概念,Maven可以通过一小段描述信息来管理项目的构建,报告... 目录1. 什么是Maven?2.创建⼀个Maven项目3.Maven 核心功能4.使用Maven H

Python中__init__方法使用的深度解析

《Python中__init__方法使用的深度解析》在Python的面向对象编程(OOP)体系中,__init__方法如同建造房屋时的奠基仪式——它定义了对象诞生时的初始状态,下面我们就来深入了解下_... 目录一、__init__的基因图谱二、初始化过程的魔法时刻继承链中的初始化顺序self参数的奥秘默认

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr

Spring Boot 集成 Quartz并使用Cron 表达式实现定时任务

《SpringBoot集成Quartz并使用Cron表达式实现定时任务》本篇文章介绍了如何在SpringBoot中集成Quartz进行定时任务调度,并通过Cron表达式控制任务... 目录前言1. 添加 Quartz 依赖2. 创建 Quartz 任务3. 配置 Quartz 任务调度4. 启动 Sprin

Linux下如何使用C++获取硬件信息

《Linux下如何使用C++获取硬件信息》这篇文章主要为大家详细介绍了如何使用C++实现获取CPU,主板,磁盘,BIOS信息等硬件信息,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录方法获取CPU信息:读取"/proc/cpuinfo"文件获取磁盘信息:读取"/proc/diskstats"文

Java使用SLF4J记录不同级别日志的示例详解

《Java使用SLF4J记录不同级别日志的示例详解》SLF4J是一个简单的日志门面,它允许在运行时选择不同的日志实现,这篇文章主要为大家详细介绍了如何使用SLF4J记录不同级别日志,感兴趣的可以了解下... 目录一、SLF4J简介二、添加依赖三、配置Logback四、记录不同级别的日志五、总结一、SLF4J

使用Python实现一个优雅的异步定时器

《使用Python实现一个优雅的异步定时器》在Python中实现定时器功能是一个常见需求,尤其是在需要周期性执行任务的场景下,本文给大家介绍了基于asyncio和threading模块,可扩展的异步定... 目录需求背景代码1. 单例事件循环的实现2. 事件循环的运行与关闭3. 定时器核心逻辑4. 启动与停

如何使用Nginx配置将80端口重定向到443端口

《如何使用Nginx配置将80端口重定向到443端口》这篇文章主要为大家详细介绍了如何将Nginx配置为将HTTP(80端口)请求重定向到HTTPS(443端口),文中的示例代码讲解详细,有需要的小伙... 目录1. 创建或编辑Nginx配置文件2. 配置HTTP重定向到HTTPS3. 配置HTTPS服务器