【书生·浦语】大模型实战营——第五课笔记

2024-01-14 14:44

文章标签 实战笔记模型第五课书生浦语

本文主要是介绍【书生·浦语】大模型实战营——第五课笔记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

教程文档：https://github.com/InternLM/tutorial/blob/main/lmdeploy/lmdeploy.md
视频链接：https://www.bilibili.com/video/BV1iW4y1A77P

大模型部署背景

关于模型部署

通常需要模型压缩和硬件加速
在这里插入图片描述

大模型的特点

1、显存、内存花销巨大
2、动态shape，输入输出数量不定
3、相对视觉模型，LLM结构简单，大部分都是decoder-only
在这里插入图片描述

大模型部署挑战

大模型的特点所带来的部署挑战：
1、设备：如何应对巨大的存储问题？
2、推理：如何加速token生成速度？如何有效管理、使用内存？
3、服务：如何提升系统整体吞吐量，如何降低响应时间？
在这里插入图片描述

大模型部署方案

在这里插入图片描述
continuous batch用于解决动态batch问题
云端常用的部署方案：deepspeed、tensorrt-llm、vllm、Imdepoly
移动端：llama.cpp（对移动端设备做了优化）、mlc-llm

LMDepoly简介

LMDeploy是LLM在nvidia设备上部署的全流程解决方案。（还没有涉及到移动端）

关于轻量化：
1、权重的4bit量化
2、k v cache的8bit量化

关于推理引擎：
1、turbomind，是LMDeploy的一个创新点
2、pytorch

关于服务：
1、api server
2、gradio：主要用于演示demo
3、triton inference

在这里插入图片描述

在这里插入图片描述
LMDeploy比vLLM的性能要好。

核心功能——量化

在这里插入图片描述
量化后，最大的输出长度变为原来的4倍。

为什么做Weight Only的量化？

LLM中存在两种密集场景：
1、计算密集：神经网络参数量大，前向一次要经过很多计算，这个我是理解的
2、访存密集：读取什么数据呢？这个我很疑惑，群里有大佬说是KV Cache的访存

大部分时候，LLM访存才是性能瓶颈的原因，而不是数值计算的时候。

为什么只做weight only的量化？一举多得
1、将FP16的模型权重量化为int4，访存量降为FP16的1/4，降低了访存成本，提高了decoding速度（不太理解具体的过程？）
2、节省了显存

如何做weight only的量化？

使用AWQ算法。
在这里插入图片描述
AWQ的思想：在矩阵计算中，有一部分参数是非常重要的，所以其他参数可以量化来降低精度。

推理引擎TurboMind

在这里插入图片描述

持续批处理

continuous batch
两个重要的概念：
1、请求队列
2、batch slot
在这里插入图片描述

流程：

有状态的推理

在这里插入图片描述
问的时候，历史消息放在模型推理处

blocked k/v cache

在这里插入图片描述
k、v是transformer里attention计算产生的东西。后面计算需要依赖于k，v。
blocked指的是分块。
只存当前使用的k，v。

高性能cuda kernel

在这里插入图片描述
flash attention、fast w4a16，kv8、split-k decoding、算子融合这四个东西都是为了加快token生成速度的。

推理服务 api server

可以通过一个简单的命令，运行起一个服务
在这里插入图片描述

这篇关于【书生·浦语】大模型实战营——第五课笔记的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/605524。 23002807@qq.com

相关文章

MyBatis分页查询实战案例完整流程

MyBatis分页查询实战案例完整流程

《MyBatis分页查询实战案例完整流程》MyBatis是一个强大的Java持久层框架,支持自定义SQL和高级映射,本案例以员工工资信息管理为例,详细讲解如何在IDEA中使用MyBatis结合Page... 目录1. MyBATis框架简介2. 分页查询原理与应用场景2.1 分页查询的基本原理2.1.1 分

阅读更多...

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

《使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解》本文详细介绍了如何使用Python通过ncmdump工具批量将.ncm音频转换为.mp3的步骤,包括安装、配置ffmpeg环... 目录1. 前言2. 安装 ncmdump3. 实现 .ncm 转 .mp34. 执行过程5. 执行结

阅读更多...

SpringBoot 多环境开发实战(从配置、管理与控制)

SpringBoot 多环境开发实战(从配置、管理与控制)

《SpringBoot多环境开发实战(从配置、管理与控制)》本文详解SpringBoot多环境配置,涵盖单文件YAML、多文件模式、MavenProfile分组及激活策略,通过优先级控制灵活切换环境... 目录一、多环境开发基础（单文件 YAML 版）（一）配置原理与优势（二）实操示例二、多环境开发多文件版

阅读更多...

Three.js构建一个 3D 商品展示空间完整实战项目

Three.js构建一个 3D 商品展示空间完整实战项目

《Three.js构建一个3D商品展示空间完整实战项目》Three.js是一个强大的JavaScript库,专用于在Web浏览器中创建3D图形,：本文主要介绍Three.js构建一个3D商品展... 目录引言项目核心技术1. 项目架构与资源组织2. 多模型切换、交互热点绑定3. 移动端适配与帧率优化4. 可

阅读更多...

从原理到实战解析Java Stream 的并行流性能优化

从原理到实战解析Java Stream 的并行流性能优化

《从原理到实战解析JavaStream的并行流性能优化》本文给大家介绍JavaStream的并行流性能优化：从原理到实战的全攻略,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的... 目录一、并行流的核心原理与适用场景二、性能优化的核心策略1. 合理设置并行度：打破默认阈值2. 避免装箱

阅读更多...

Maven中生命周期深度解析与实战指南

Maven中生命周期深度解析与实战指南

《Maven中生命周期深度解析与实战指南》这篇文章主要为大家详细介绍了Maven生命周期实战指南,包含核心概念、阶段详解、SpringBoot特化场景及企业级实践建议,希望对大家有一定的帮助... 目录一、Maven 生命周期哲学二、default生命周期核心阶段详解（高频使用）三、clean生命周期核心阶

阅读更多...

Python实战之SEO优化自动化工具开发指南

Python实战之SEO优化自动化工具开发指南

《Python实战之SEO优化自动化工具开发指南》在数字化营销时代,搜索引擎优化（SEO）已成为网站获取流量的重要手段,本文将带您使用Python开发一套完整的SEO自动化工具,需要的可以了解下... 目录前言项目概述技术栈选择核心模块实现1. 关键词研究模块2. 网站技术seo检测模块3. 内容优化分析模

阅读更多...

Java 正则表达式的使用实战案例

Java 正则表达式的使用实战案例

《Java正则表达式的使用实战案例》本文详细介绍了Java正则表达式的使用方法,涵盖语法细节、核心类方法、高级特性及实战案例,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要... 目录一、正则表达式语法详解1. 基础字符匹配2. 字符类（[]定义）3. 量词（控制匹配次数）4. 边

阅读更多...

Java Scanner类解析与实战教程

Java Scanner类解析与实战教程

《JavaScanner类解析与实战教程》JavaScanner类（java.util包）是文本输入解析工具,支持基本类型和字符串读取,基于Readable接口与正则分隔符实现,适用于控制台、文件输... 目录一、核心设计与工作原理1.底层依赖2.解析机制A.核心逻辑基于分隔符（delimiter）和模式匹

阅读更多...

Python内存优化的实战技巧分享

Python内存优化的实战技巧分享

《Python内存优化的实战技巧分享》Python作为一门解释型语言,虽然在开发效率上有着显著优势,但在执行效率方面往往被诟病,然而,通过合理的内存优化策略,我们可以让Python程序的运行速度提升3... 目录前言python内存管理机制引用计数机制垃圾回收机制内存泄漏的常见原因1. 循环引用2. 全局变

阅读更多...