AI芯片竞争白热化!Meta官宣最新AI推理芯片!性能提升300%,支撑Llama高负载计算

本文主要是介绍AI芯片竞争白热化!Meta官宣最新AI推理芯片!性能提升300%,支撑Llama高负载计算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在算力为王的大模型时代,AI技术“三巨头”:微软,谷歌,Meta,在自研芯片领域卷的是热火朝天。

最早是微软,在去年宣布基于台积电5nm技术制造了Azure Maia 100及Azure Cobalt 100芯片。前几天,谷歌也发布了自研数据中心芯片Axion,以应对高昂的AI竞赛成本。

这次Meta又有了大动作,发布第二代芯片Meta Training and Inference Accelerator v2(MTIAv2)。

GPT-3.5研究测试: https://hujiaoai.cn

GPT-4研究测试: https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4): https://hiclaude3.com

话不多说,先来看看MTIAv2的硬件表现。

容量、计算、带宽翻倍

在工艺和性能方面,相比于Meta去年5月推出的MTIAv1采用的台积电7nm芯片,MTIAv2则换上了台积电5nm芯片,频率从800MHz提升到1.35GHz,稠密算力达到上一代的近3.5倍,稀疏算力达到上一代的近7倍,INT8精度下达到708TFLOPS

这主要得益于稀疏计算的流水线相关的体系结构的改进,以及本地PE存储、片上SRAM以及LPDDR5容量的翻倍,并将其带宽增加到3.5倍。

能耗方面,从25W提升到了90W。值得一提的是,英伟达H100的功耗约在350~500W,INT8精度下稀疏算力为3026TFLOPS,每瓦性能和MTIAv2基本差不多。在平台层,通过2倍的设备数量和2插槽CPU,MTIAv2能够实现6倍的模型服务吞吐量、比MTIAv1系统提高多达1.5倍的每瓦性能。

在架构设计方面,MTIAv2主要为排名和推荐模型提供服务,这些模型中,模型大小和每个输入样本的计算量可能相差约10-100倍。因此,芯片设计考虑了计算、内存带宽和内存容量的平衡,即便其batch size大小相对较低,也能提供相对较高的利用率。

然而,芯片竞赛的挑战不仅在于芯片本身,其完整的计算生态也至关重要。

Meta完整的计算生态

相比商用GPU,MTIAv2可实现更高的效率,这得益于Meta在芯片的生产和使用中可以控制全栈,比如它的配套硬件、软件、编译器等.

▲MTIAv2全栈的计算生态

在配套硬件方面,Meta开发了一个大型的机架式系统,它由3个机箱组成,每个机箱包含12块电路板,每块电路板上有2块芯片,总计可容纳72个MTIAv2。

Meta特别设计了这个系统,使芯片的功率和性能都能充分发挥,系统通信采用PCIe Gen5,以增加系统的带宽和可扩展性。如果选择扩展到机架之外,还能选择添加RDMA网卡。

在软件方面,作为PyTorch的初始开发人员,Meta团队重视可编程性和开发效率,MTIA堆栈旨在与PyTorch 2.0、TorchDynamo和TorchInductor的完全集成。优化了前端的图形处理流程,包括捕获、分析、转换和提取操作,以及与MTIA硬件无关的可复用机制。

在编译器方面,MTIA的较低级别编译器从前端接受图形输出,生成既高效又针对设备优化的代码。在此之下是负责与驱动程序/固件接口的运行时堆栈,MTIA流式处理接口提供了管理设备内存、在设备上运行运算符以及执行编译图所需的基本操作。

为了提高代码的性能,Meta创建了Triton-MTIA编译器后端,这是一个高效的机器学习计算内核编写工具,旨在为MTIA硬件生成优化代码。Triton语言的硬件无关性使其适合于MTIA这样的非GPU硬件架构。Triton-MTIA后端通过执行硬件利用率优化和支持高性能内核来进一步提升效率,并提供了自动调优功能,以探索最佳的内核配置。

Meta通过将Triton语言特性和PyTorch 2.0集成,扩展了对PyTorch操作符的支持,使得开发人员可以在编译前(AOT)和即时编译(JIT)工作流程中利用Triton-MTIA,极大提高了开发效率和计算内核创作的可扩展性。

未来将持续投资

Meta去年资本支出为280亿美元,占其收入的21%,今年将继续扩大支出规模,预计将高达370亿美元,其中大部分用于与AI相关的服务器和数据中心建设,比如向英伟达大量采购GPU芯片以及MTIAv2的研发。

Meta在官网上说到“MTIA将成为我们长期规划的重要组成部分,旨在为Meta独特的AI工作负载构建和扩展最强大、最高效的基础设施”,这实际上也是为其大模型蓄力,据说下周Meta将推出140B参数的Llama 3大语言模型,参数量比上一代的2倍还多。

未来,我们也可以继续期待AI硬件领域的技术突破,以及技术前沿的不断拓展。

这篇关于AI芯片竞争白热化!Meta官宣最新AI推理芯片!性能提升300%,支撑Llama高负载计算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/897887

相关文章

揭秘未来艺术:AI绘画工具全面介绍

📑前言 随着科技的飞速发展,人工智能(AI)已经逐渐渗透到我们生活的方方面面。在艺术创作领域,AI技术同样展现出了其独特的魅力。今天,我们就来一起探索这个神秘而引人入胜的领域,深入了解AI绘画工具的奥秘及其为艺术创作带来的革命性变革。 一、AI绘画工具的崛起 1.1 颠覆传统绘画模式 在过去,绘画是艺术家们通过手中的画笔,蘸取颜料,在画布上自由挥洒的创造性过程。然而,随着AI绘画工

计算绕原点旋转某角度后的点的坐标

问题: A点(x, y)按顺时针旋转 theta 角度后点的坐标为A1点(x1,y1)  ,求x1 y1坐标用(x,y)和 theta 来表示 方法一: 设 OA 向量和x轴的角度为 alpha , 那么顺时针转过 theta后 ,OA1 向量和x轴的角度为 (alpha - theta) 。 使用圆的参数方程来表示点坐标。A的坐标可以表示为: \[\left\{ {\begin{ar

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

AI儿童绘本创作

之前分享过AI儿童绘画的项目,但是主要问题是角色一致要花费很长的时间! 今天发现了这款,非常奈斯! 只需输入故事主题、风格、模板,软件就会自动创作故事内容,自动生成插画配图,自动根据模板生成成品,测试效果如下图。 变现方式:生成儿童绘本发布到各平台,吸引宝妈群体进私域。  百度网盘 请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全

大语言模型(LLMs)能够进行推理和规划吗?

大语言模型(LLMs),基本上是经过强化训练的 n-gram 模型,它们在网络规模的语言语料库(实际上,可以说是我们文明的知识库)上进行了训练,展现出了一种超乎预期的语言行为,引发了我们的广泛关注。从训练和操作的角度来看,LLMs 可以被认为是一种巨大的、非真实的记忆库,相当于为我们所有人提供了一个外部的系统 1(见图 1)。然而,它们表面上的多功能性让许多研究者好奇,这些模型是否也能在通常需要系

人工和AI大语言模型成本对比 ai语音模型

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。 但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多

高度内卷下,企业如何通过VOC(客户之声)做好竞争分析?

VOC,即客户之声,是一种通过收集和分析客户反馈、需求和期望,来洞察市场趋势和竞争对手动态的方法。在高度内卷的市场环境下,VOC不仅能够帮助企业了解客户的真实需求,还能为企业提供宝贵的竞争情报,助力企业在竞争中占据有利地位。 那么,企业该如何通过VOC(客户之声)做好竞争分析呢?深圳天行健企业管理咨询公司解析如下: 首先,要建立完善的VOC收集机制。这包括通过线上渠道(如社交媒体、官网留言

【新闻】AI程序员要来了吗?阿里云官宣

内容提要 6 月 21 日,在阿里云上海 AI 峰会上,阿里云宣布推出首个AI 程序员。 据介绍,这个AI程序员具备架构师、开发工程师、测试工程师等多种岗位的技能,能一站式自主完成任务分解、代码编写、测试、问题修复、代码提交整个过程,最快分钟级即可完成应用开发,大幅提升研发效率。 近段时间以来,有关AI的实践应用突破不断,全球开发者加速研发步伐。有业内人士坦言,随着大模型性能逐渐提升,AI应

【云计算 复习】第1节 云计算概述和 GFS + chunk

一、云计算概述 1.云计算的商业模式 (1)软件即服务(SaaS) 有些景区给游客提供烧烤场地,游客需要自己挖坑或者砌烧烤台,然后买肉、串串、烧烤。 (2)平台即服务(PaaS) 有些景区给游客提供烧烤场地,同时搭建好烧烤台,游客只需要自己带食材和调料、串串、烧烤。 (3)基础设施即服务(IaaS) 有些景区给游客提供烧烤场地,同时搭建好烧烤台,还有专门的厨师来烧烤,用户不需要关心前面的所有