GPU 编程 CPU 异同点_时代变了!NVIDIA A100 GPU推理性能237倍碾压CPU-NVIDIA,A100,推理,人工智能,安培 ——快科技(驱动之家旗下媒体)-...

本文主要是介绍GPU 编程 CPU 异同点_时代变了!NVIDIA A100 GPU推理性能237倍碾压CPU-NVIDIA,A100,推理,人工智能,安培 ——快科技(驱动之家旗下媒体)-...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

MLPerf组织今天发布最新的推理基准测试(Benchmark)MLPerf Inference v结果,总共有23个组织提交了结果,相比上一个版本(MLPerf Inference )的12个提交者增加了近一倍。

fdcd993f834abcfa4e9e4150ea7c28b6.png

结果显示,今年5月NVIDIA(Nvidia)发布的安培(Ampere)架构A100 Tensor Core GPU,在云端推理的基准测试性能是最先进Intel CPU的237倍。

7f1e334ec7b9af4e6e1ce8b79b50cedc.png
MLPerf Inference V部分结果截图 

最新的AI推理测试结果意味着,NVIDIA未来可能在AI推理和训练市场都占据领导地位,给云端AI推理市场拥有优势的Intel带来更大压力的同时,也将让其他追赶者面临更大挑战。

MLPerf推理基准测试进一步完善的价值

与2019年的MLPerf Inference 版本相比,最新的版本将测试从AI研究的核心视觉和语言的5项测试,扩展了到了包括推荐系统、自然语言理解、语音识别和医疗影像应用的6项测试,并且有分别针对云端和终端推理的测试,还加入了手机和笔记本电脑的结果。

扩展的测试项从MLPerf和业界两个角度都有积极意义。

45ca6f5d8fb3316b942a6a95d401b293.png
MLPerf Inference 测试项

09c85b41f893b6d91681c899e2797049.png
MLPerf Inference v数据中心测试项

a403b5afd3e92c3d5a6cba34f5b73cf5.png
MLPerf Inference v边缘端测试项

任何一个基准测试都需要给业界具有参考价值的指标。MLPerf基准测试是在业界缺乏对AI芯片公认的评价标准的2018年诞生,因此,MLPerf组织既需要给出各方都认可的成绩,还需要根据AI行业的发展完善评价标准。

不过,AI行业发展迅速,AI模型的参数越来越多,应用的场景也越来越广泛。评价AI芯片和系统的推理性能需要涵盖可编程性、延迟、准确性、模型大小、吞吐量、能效等指标,也需要选择更具指导价值的模型和应用。

此次增加的推荐系统测试对于互联网公司意义重大。在王喆的《深度学习推荐系统》一书中提到,2019年天猫“双11”的成交额是2684亿元,假设推荐系统进行了优化,整体的转化率提高1%,那么增加的成交额大约为亿元。

另外,MLPerf Inference v中增加医疗影像3D U-Net模型测试与新冠大流行以及AI在医疗行业的重要性与日俱增密切相关,比如一家初创公司使用AI简化了超声心电图的采集工作,在新冠大流行初期发挥了作用。

基准测试从到v,能够为要选用AI芯片和系统的公司提供更直观和有价值的参考是MLPerf基准测试的价值所在,比如,帮助金融结构的会话式AI更快速回答客户问题,帮助零售商使用AI保证货架库存充足。

与此同时,这也将促进MLPerf组织在业界的受认可程度,从接近翻倍的提交成绩的组织就能看出来。

GPU云端推理性能最高是CPU的237倍

过去几年,云端AI训练市场NVIDIA拥有绝对优势,云端AI推理市场被Intel赚取了大部分利润是事实。这让不少人都产生了GPU更适合训练而CPU更适合推理的认知,但MLPerf最新的推理测试结果可能会改变这一观点。

MLPerf Inference V的测试结果显示,在数据中心OFFLINE(离线)测试模式下,赛灵思U250和IntelCooper Lake在各个测试模型下与NVIDIAT4的差距不大,但A100对比CPU、FPGA和自家的T4就有明显的性能差距。

47c964da4ea912ec820f1c5ad22c970c.png

在SERVER模式下的推荐系统DLRM模型下,A100 GPU对比IntelCooper Lake有最高237倍的性能差距,在其他模型下也有比较显著的差距。值得注意的是,Intel的Cooper Lake系统的状态还是预览,其余三款芯片的系统都已经可用。

ca39e643d7d7715e9f85e6d9444cdc21.png

A100 GPU的优势也在边缘推理中也十分明显。在单数据流(Singel-Stream)测试中,A100对比NVIDIAT4和面向边缘终端的NVIDIAJetson AGX Xavier有几倍到十几倍的性能优势。在多数据流(Multi-Stream)测试中,A100对比另外两款自家产品在不同AI模型中有几倍到二十多倍的性能优势。

8db8f3adcade969477c6921859dbbdde.png

在边缘OFFLINE模式下,A100对比T4和Jetson AGX Xavier也有几倍到二十多倍的性能优势。

这很好地说明A100的安培架构以及其第三代Tensor Core优势的同时,也表明了NVIDIA能够覆盖整个AI推理市场。

在此次提交结果的23家公司中,除了NVIDIA外还有11家其合作伙伴提交了基于NVIDIA GPU的1029个测试结果,占数据中心和边缘类别中参评测试结果总数的85%以上。

从提交结果的合作伙伴的系统中可以看到,NVIDIAT4仍然是企业的边缘服务器推理平台的主要选择。A100提升到新高度的性能意味着未来企业边缘服务器在选择AI推理平台的时候,可以从T4升级到A100,对于功耗受限的设备,可以选择Jeston系列产品。

特别值得注意的是,NVIDIA GPU首次在公有云中实现了超越CPU的AI推理能力。

临界点到来?AI推理芯片市场竞争门槛更高

五年前,只有少数领先的高科技公司使用GPU进行推理。如今,NVIDIAGPU首次在公有云市场实现超越CPU的AI推理能力,或许意味着AI推理市场临界点的到来。NVIDIA还预测,基于其GPU的总体云端AI推理计算能力每两年增长约10倍,增长速度高于CPU。

b1833c92b2c21bcc6f5dd03b294c6031.png

另外,NVIDIA还强调基于A100高性能系统的成本效益。NVIDIA表示,一套DGX A100系统可以提供相当于近1000台双插槽CPU服务器的性能,能为客户AI推荐系统模型从研发走向生产的过程,具有极高的成本效益。

a858c28276c143a386765d4f333a013c.png

同时,NVIDIA也在不断优化推理软件堆栈,进一步提升在推理市场的竞争力。

最先感受到影响的会是Intel,但在云端AI推理市场体现出显著变化至少需要几年时间,因为企业在更换平台的时候会更加谨慎,生态的护城河此时也更能体现出价值。

但无论如何,我们都看到NVIDIA在AI市场的强势地位。雷锋网七月底报道,在MLPerf发布的MLPerf Training v基准测试中,A100 Tensor Core GPU,和HDR InfiniBand实现多个DGX A100 系统互联的庞大集群DGX SuperPOD系统在性能上开创了八个全新里程碑,共打破16项纪录。

安培架构A100在MLPerf最新的训练和推理成绩表明NVIDIA不仅给云端AI训练的竞争者更大的压力,也可能改变AI推理市场的格局。

NVIDIA将其在云端训练市场的优势进一步拓展到云端和边缘推理市场符合AI未来的发展趋势。有预测指出,随着AI模型的成熟,市场对云端AI训练需求的增速将会降低,云端AI推理的市场规模将会迅速增加,并有望在2022年超过训练市场。

另据市场咨询公司ABI Research的数据,预计到2025年,边缘AI芯片市场收入将达到122亿美元,云端AI芯片市场收入将达到119亿美元,边缘AI芯片市场将超过云端AI芯片市场。

凭借强大的软硬件生态系统,NVIDIA和Intel依旧会是AI市场的重要玩家,只是随着他们竞争力的不断提升,其他参与AI市场竞争的AI芯片公司们面临的压力也随之增加。

2e08e55404dbcc02e8af145dd8518a7e.png

- THE END -

#NVIDIA#显卡#人工智能

原文链接:雷锋网责任编辑:上方文Q

这篇关于GPU 编程 CPU 异同点_时代变了!NVIDIA A100 GPU推理性能237倍碾压CPU-NVIDIA,A100,推理,人工智能,安培 ——快科技(驱动之家旗下媒体)-...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/452276

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

黑神话,XSKY 星飞全闪单卷性能突破310万

当下,云计算仍然是企业主要的基础架构,随着关键业务的逐步虚拟化和云化,对于块存储的性能要求也日益提高。企业对于低延迟、高稳定性的存储解决方案的需求日益迫切。为了满足这些日益增长的 IO 密集型应用场景,众多云服务提供商正在不断推陈出新,推出具有更低时延和更高 IOPS 性能的云硬盘产品。 8 月 22 日 2024 DTCC 大会上(第十五届中国数据库技术大会),XSKY星辰天合正式公布了基于星

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

如何用GPU算力卡P100玩黑神话悟空?

精力有限,只记录关键信息,希望未来能够有助于其他人。 文章目录 综述背景评估游戏性能需求显卡需求CPU和内存系统需求主机需求显式需求 实操硬件安装安装操作系统Win11安装驱动修改注册表选择程序使用什么GPU 安装黑神话悟空其他 综述 用P100 + PCIe Gen3.0 + Dell720服务器(32C64G),运行黑神话悟空画质中等流畅运行。 背景 假设有一张P100-

从戴尔公司中国大饭店DTF大会,看科技外企如何在中国市场发展

【科技明说 | 科技热点关注】 2024戴尔科技峰会在8月如期举行,虽然因事未能抵达现场参加,我只是观看了网上在线直播,也未能采访到DTF现场重要与会者,但是通过数十年对戴尔的跟踪与观察,我觉得2024戴尔科技峰会给业界传递了6大重要信号。不妨简单聊聊:从戴尔公司中国大饭店DTF大会,看科技外企如何在中国市场发展? 1)退出中国的谣言不攻自破。 之前有不良媒体宣扬戴尔将退出中国的谣言,随着2