14 大模型微调-KitTrain

2024-09-03 02:20
文章标签 模型 14 微调 kittrain

本文主要是介绍14 大模型微调-KitTrain,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 介绍

如何降低占用的显存:

  1. 梯度累计:在一个完整的模型更新周期(epoch)中,将多个小批量(mini-batches)的数据的梯度进行累加,然后在一个较大的批量(累积步数)之后进行一次模型参数更新。
  2. 梯度检查点;
  3. 优化器;
  4. 冻结模型参数;
  5. 参数高校微调;

但是模型本身的参数并无改变!

     之前提到的大模型微调技术都是冻结原模型的参数,然后添加额外的参数进行训练微调。下面我们针对大模型参数进行修正:比如4个字节的单精度调整为2个字节的;K-bit 训练是一种优化技术,主要用于减少模型训练过程中的内存占用和计算成本。这种方法通常涉及到使用低精度(如8位或更低)来存储和计算模型的权重,从而降低内存需求和加速训练过程。在深度学习领域,常见的低精度训练技术包括8位量化训练(8-bit training)和混合精度训练(Mixed Precision Training)。

1.1 K-bit 训练的主要形式

  1. 8位量化训练(8-bit Training)

    • 在8位量化训练中,模型的权重被量化为8位整数(int8),从而大幅减少内存占用。
    • 为了保持训练的准确性,通常会在前向传播时将量化后的权重反量化回高精度,然后在反向传播时使用高精度梯度进行更新。
  2. 混合精度训练(Mixed Precision Training)

    • 混合精度训练是一种使用不同精度表示模型的不同部分的技术。
    • 通常情况下,模型的权重使用16位浮点数(FP16)表示,而梯度累积和优化器状态使用32位浮点数(FP32)表示。
    • 这种技术已经在许多现代深度学习框架中得到广泛应用,如NVIDIA的 Apex 库。

1.2 K-bit 训练的优势

  • 减少内存占用:使用低精度表示可以显著减少模型的内存占用。
  • 加速训练:低精度计算通常比高精度计算更快,尤其是在支持硬件加速(如GPU)的情况下。
  • 节省计算资源:在分布式训练中,减少通信带宽需求,提高整体训练效率。

2 参数&显存

单精度(4个字节)-> 半精度(2字节)

b16取值范围: 

2**(-24) = 5.960464477539063e-08, 低于这个范围的小数,会取零!

FP16的格式

  • 符号位(Sign bit):1位
  • 指数位(Exponent bits):5位
  • 尾数位(Fraction bits):10位
编码规则
  • 指数偏移量(Exponent bias):15
  • 指数范围:2**5=32 个不同的值,即从 0 到 31,实际有效的指数范围是从(2**(5-1) - 1) −14到 15。

  • 尾数(Mantissa):10位尾数位可以表示 2**10=1024 个不同的值。

取值范围

正常数值

正常数值指的是既不是特殊值也不是无穷大或NaN的情况。对于FP16,正常数值的取值范围如下:

 2**(-10) * 2**(-14) 

  • 最小非零负数:: -65504。

  • 最大负数:与最大正数的绝对值相同,但符号相反: -5.960464477539063×10−8。

这篇关于14 大模型微调-KitTrain的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1131749

相关文章

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Pytorch微调BERT实现命名实体识别

《Pytorch微调BERT实现命名实体识别》命名实体识别(NER)是自然语言处理(NLP)中的一项关键任务,它涉及识别和分类文本中的关键实体,BERT是一种强大的语言表示模型,在各种NLP任务中显著... 目录环境准备加载预训练BERT模型准备数据集标记与对齐微调 BERT最后总结环境准备在继续之前,确

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

《C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)》本文主要介绍了C#集成DeepSeek模型实现AI私有化的方法,包括搭建基础环境,如安装Ollama和下载DeepS... 目录前言搭建基础环境1、安装 Ollama2、下载 DeepSeek R1 模型客户端 ChatBo

SpringBoot快速接入OpenAI大模型的方法(JDK8)

《SpringBoot快速接入OpenAI大模型的方法(JDK8)》本文介绍了如何使用AI4J快速接入OpenAI大模型,并展示了如何实现流式与非流式的输出,以及对函数调用的使用,AI4J支持JDK8... 目录使用AI4J快速接入OpenAI大模型介绍AI4J-github快速使用创建SpringBoot

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll

Spring AI Alibaba接入大模型时的依赖问题小结

《SpringAIAlibaba接入大模型时的依赖问题小结》文章介绍了如何在pom.xml文件中配置SpringAIAlibaba依赖,并提供了一个示例pom.xml文件,同时,建议将Maven仓... 目录(一)pom.XML文件:(二)application.yml配置文件(一)pom.xml文件:首

如何在本地部署 DeepSeek Janus Pro 文生图大模型

《如何在本地部署DeepSeekJanusPro文生图大模型》DeepSeekJanusPro模型在本地成功部署,支持图片理解和文生图功能,通过Gradio界面进行交互,展示了其强大的多模态处... 目录什么是 Janus Pro1. 安装 conda2. 创建 python 虚拟环境3. 克隆 janus