GPU 之争:训练大模型的显卡规格大比拼

2024-04-23 01:12

本文主要是介绍GPU 之争:训练大模型的显卡规格大比拼,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 

训练大模型有多烧钱?(含常用GPU规格比较)

b5c18c983587ebf66c0df2f642b05456.jpeg

训练大模型有多烧钱?

解锁大型语言模型的运行秘诀
大型语言模型 (LLM) 对硬件要求很高,其中显卡内存至关重要。Meta 的 LLaMA 2 模型提供了规模不等的选项:
* 70B 模型:320GB GPU 内存
* 13B 模型:50GB GPU 内存
* 7B 模型:30GB GPU 内存
选择合适的 GPU 内存容量可确保 LLM 平稳运行,释放其强大的语言处理能力。

利用量化技术,可牺牲模型精确度以降低内存占用量。与性能略差的机器人对话时,即使没有独立显卡,使用 CPU 即可运行 LLaMA 2。该技术可将内存需求减至原先的一半、四分之一甚至八分之一。

体验 Meta 开源的 LLaMA 2,一款高度可定制的大型语言模型。它的灵活性让您可以根据自己的具体需求进行重新训练和微调,解锁无穷无尽的应用程序。

LLM模型训练成本高昂,如OpenAI模型,每小时微调成本为34至103美元。预估LLaMA 2模型微调成本将远超此价格范围,具体取决于所需计算量。

LLaMA模型训练耗时惊人,其7B版本训练时间为21年(基于单张A100 GPU),而70B版本则需要103年。Meta使用大量A100 GPU,7B模型训练成本为27.6万美元,70B模型为170万美元。这些数字凸显了大语言模型训练的计算密集性和高昂成本。

A100和RTX4090算力相差不大,但是显存大小和传输频宽就很重要:

f7fc6f055e20278dc40e99e5a7d5f1ec.jpeg

采用 A100 GPU 可将 PyTorch 训练和测试的吞吐量提升 40%(高于 RTX 4090),而采用 H100 GPU 可提升 60-150%。

c447412b3341ab619f6183630fbe1e65.jpeg

优化文本
使用 6 倍模型参数量乘以训练数据 Token 数可估算训练算力(Flops)。
Google Colab 提供按月订阅服务:
* Pro:100 个运算单元,每月 10.49 美元
* Pro+:500 个运算单元,每月 52.49 美元
以 A100 GPU 为例,每小时耗用约 13 个运算单元,折合每 GPU 小时 1.36 美元。

利用 27,540 个经过严格挑选的示例对 Meta 的 LLaMA 模型进行微调,大幅提升了其性能。这些示例使模型能够更深入地理解问题并提供准确的答案。

xxxLLaMA,基于LLaMA 2的微调模型,专为繁体中文处理而设计,包含两个阶段,以增强中文处理能力。

  1. LLaMA 2模型在预训练阶段使用8块A100 GPU进行了两周的训练,熟练掌握了中文语言的关键语法和特征。
  2. 指导微调:
    通过 12 小时的微调,8 块 H100 GPU 大幅提升了模型性能。微调利用了来自 Stanford-Alpaca 的独特数据集,其中包含:
    * 179 个指导问题
    * 174 种不同类型的数据集
    此数据集提供逐步指导、详细解释和额外知识,即使仅使用 1000 条微调数据,也能显著增强模型能力。

凭借52,000个数据集和4块A100 GPU,LLaMA-7B在短短一天内完成了训练,达到与text-davinci-003相当的性能。该模型采用自我指导方法,不断学习和优化自身,使其具备先进的文本生成和理解能力。

成本对比:
* ChatGPT API:500 美元
* 4 块 A100 GPU,24 小时训练:100 美元

深入了解模型训练和微调的成本:
训练模型需要大量的资源和时间,通常是成本不菲且持续的过程。虽然 LoRA 微调可以用更少资源获得较好效果,但仍需要考虑设备和资源成本。

常用AI计算GPU卡规格比较

大型语言模型 (LLM) 领域由 ChatGPT 主导,但其应用开发成本很高。为了提高成本效益,建议使用 OpenAI 或 Azure API。通过这种方法,企业可以利用 LLM 的强大功能,同时最大限度地降低训练和执行费用。

数据无法上云或需调整时,开源模型(如 LLaMA、Mistral、Gemma)提供了本地执行解决方案。这些模型可用于重新训练或微调,以符合特定需求,为各种应用程序提供灵活性。

在运行LLM模型时,CPU/RAM/SSD的级别次要,最关键的是GPU。目前,H100/A100有钱也买不到。然后是工作站级别的GPU,如RTX-6000/5000/4500/4000/4000 SFF等,RTX-6000有48GB内存,不需要量化就可以直接运行13B大小的模型。再次下来是普通玩家勉强买得起的消费级显卡4090,价格为1万6-1万9人民币。如果一张不够,想要体验团结就是力量,可以考虑购买工作站级别的高端主机,可以插入四张双宽度显卡。

释放LLM潜能需要强大的经济基础。对于LLaMA 2模型,不同GPU性能的影响值得考虑。升级到双GPU可能显著提升性能,具体提升取决于GPU类型。

先看不同型号单一 GPU 跑 LLM 的效能数字:

a252662ccc79a023f31c9e3bac242251.jpeg

表格有附不同 GPU 跑 llama2-7b-chat 及 llama2-13b-chat 模型的效能数字,单位为 Tokens/s。CPU 只能用惨烈形容,不到 2。4090 跑 7B 模型数字挺漂亮,甚至赢过 A100。有趣的是 8 bit 量化版的数很难看,4 bit 量化版也输给 16 bit,关于这点网路上讨论不少,我的理解这是用动态量化节省记忆体的代价。参考:2-3x slower is to be expected with load_in_4bit (vs 16-bit weights), on any model -- that's the current price of performing dynamic quantization。

探索多 GPU 推理加速潜力
一项研究显示,使用 3090 GPU 运行 LLaMA 2 7B 模型时,添加额外 GPU 可显着提升推理速度。

6fbfee71bf3d5548dd75f3d7b7379450.jpeg

批次模式执行可显着提升性能,克服GPU通信成本带来的负面影响。增加GPU数量至5张3090时,批次模式下性能持续增长,而单纯推理则出现下降趋势。

更多:

选择华硕龙芯主板的理由:从支持国产芯片到性价比考量

探秘Nvidia开创性的DGX-GB200机架系统背后的创新

浙江大学研究团队如何在消费级GPU上实现对100B模型微调

女科学家提出GaLore:为消费级GPU上高效训练LLM铺平道路

 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

这篇关于GPU 之争:训练大模型的显卡规格大比拼的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/927386

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

如何用GPU算力卡P100玩黑神话悟空?

精力有限,只记录关键信息,希望未来能够有助于其他人。 文章目录 综述背景评估游戏性能需求显卡需求CPU和内存系统需求主机需求显式需求 实操硬件安装安装操作系统Win11安装驱动修改注册表选择程序使用什么GPU 安装黑神话悟空其他 综述 用P100 + PCIe Gen3.0 + Dell720服务器(32C64G),运行黑神话悟空画质中等流畅运行。 背景 假设有一张P100-