AI芯片竞争白热化!Meta官宣最新AI推理芯片!性能提升300%,支撑Llama高负载计算

本文主要是介绍AI芯片竞争白热化!Meta官宣最新AI推理芯片!性能提升300%,支撑Llama高负载计算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在算力为王的大模型时代,AI技术“三巨头”:微软,谷歌,Meta,在自研芯片领域卷的是热火朝天。

最早是微软,在去年宣布基于台积电5nm技术制造了Azure Maia 100及Azure Cobalt 100芯片。前几天,谷歌也发布了自研数据中心芯片Axion,以应对高昂的AI竞赛成本。

这次Meta又有了大动作,发布第二代芯片Meta Training and Inference Accelerator v2(MTIAv2)。

GPT-3.5研究测试: https://hujiaoai.cn

GPT-4研究测试: https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4): https://hiclaude3.com

话不多说,先来看看MTIAv2的硬件表现。

容量、计算、带宽翻倍

在工艺和性能方面,相比于Meta去年5月推出的MTIAv1采用的台积电7nm芯片,MTIAv2则换上了台积电5nm芯片,频率从800MHz提升到1.35GHz,稠密算力达到上一代的近3.5倍,稀疏算力达到上一代的近7倍,INT8精度下达到708TFLOPS

这主要得益于稀疏计算的流水线相关的体系结构的改进,以及本地PE存储、片上SRAM以及LPDDR5容量的翻倍,并将其带宽增加到3.5倍。

能耗方面,从25W提升到了90W。值得一提的是,英伟达H100的功耗约在350~500W,INT8精度下稀疏算力为3026TFLOPS,每瓦性能和MTIAv2基本差不多。在平台层,通过2倍的设备数量和2插槽CPU,MTIAv2能够实现6倍的模型服务吞吐量、比MTIAv1系统提高多达1.5倍的每瓦性能。

在架构设计方面,MTIAv2主要为排名和推荐模型提供服务,这些模型中,模型大小和每个输入样本的计算量可能相差约10-100倍。因此,芯片设计考虑了计算、内存带宽和内存容量的平衡,即便其batch size大小相对较低,也能提供相对较高的利用率。

然而,芯片竞赛的挑战不仅在于芯片本身,其完整的计算生态也至关重要。

Meta完整的计算生态

相比商用GPU,MTIAv2可实现更高的效率,这得益于Meta在芯片的生产和使用中可以控制全栈,比如它的配套硬件、软件、编译器等.

▲MTIAv2全栈的计算生态

在配套硬件方面,Meta开发了一个大型的机架式系统,它由3个机箱组成,每个机箱包含12块电路板,每块电路板上有2块芯片,总计可容纳72个MTIAv2。

Meta特别设计了这个系统,使芯片的功率和性能都能充分发挥,系统通信采用PCIe Gen5,以增加系统的带宽和可扩展性。如果选择扩展到机架之外,还能选择添加RDMA网卡。

在软件方面,作为PyTorch的初始开发人员,Meta团队重视可编程性和开发效率,MTIA堆栈旨在与PyTorch 2.0、TorchDynamo和TorchInductor的完全集成。优化了前端的图形处理流程,包括捕获、分析、转换和提取操作,以及与MTIA硬件无关的可复用机制。

在编译器方面,MTIA的较低级别编译器从前端接受图形输出,生成既高效又针对设备优化的代码。在此之下是负责与驱动程序/固件接口的运行时堆栈,MTIA流式处理接口提供了管理设备内存、在设备上运行运算符以及执行编译图所需的基本操作。

为了提高代码的性能,Meta创建了Triton-MTIA编译器后端,这是一个高效的机器学习计算内核编写工具,旨在为MTIA硬件生成优化代码。Triton语言的硬件无关性使其适合于MTIA这样的非GPU硬件架构。Triton-MTIA后端通过执行硬件利用率优化和支持高性能内核来进一步提升效率,并提供了自动调优功能,以探索最佳的内核配置。

Meta通过将Triton语言特性和PyTorch 2.0集成,扩展了对PyTorch操作符的支持,使得开发人员可以在编译前(AOT)和即时编译(JIT)工作流程中利用Triton-MTIA,极大提高了开发效率和计算内核创作的可扩展性。

未来将持续投资

Meta去年资本支出为280亿美元,占其收入的21%,今年将继续扩大支出规模,预计将高达370亿美元,其中大部分用于与AI相关的服务器和数据中心建设,比如向英伟达大量采购GPU芯片以及MTIAv2的研发。

Meta在官网上说到“MTIA将成为我们长期规划的重要组成部分,旨在为Meta独特的AI工作负载构建和扩展最强大、最高效的基础设施”,这实际上也是为其大模型蓄力,据说下周Meta将推出140B参数的Llama 3大语言模型,参数量比上一代的2倍还多。

未来,我们也可以继续期待AI硬件领域的技术突破,以及技术前沿的不断拓展。

这篇关于AI芯片竞争白热化!Meta官宣最新AI推理芯片!性能提升300%,支撑Llama高负载计算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/897887

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

黑神话,XSKY 星飞全闪单卷性能突破310万

当下,云计算仍然是企业主要的基础架构,随着关键业务的逐步虚拟化和云化,对于块存储的性能要求也日益提高。企业对于低延迟、高稳定性的存储解决方案的需求日益迫切。为了满足这些日益增长的 IO 密集型应用场景,众多云服务提供商正在不断推陈出新,推出具有更低时延和更高 IOPS 性能的云硬盘产品。 8 月 22 日 2024 DTCC 大会上(第十五届中国数据库技术大会),XSKY星辰天合正式公布了基于星

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费