linux驱动K10运算卡,GPU推动HPC普及,Tesla K10性能揭秘

2024-03-06 11:10

本文主要是介绍linux驱动K10运算卡,GPU推动HPC普及,Tesla K10性能揭秘,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

拼 命 加 载 中 ...

这两天时值国际超级计算大会,Intel推出了MIC多核架构的商品化品牌Xeon Phi,NVIDIA作为GPU计算阵营的代表也没闲着,也向公众展示了GPU计算在HPC领域的成就,并首次公开了Tesla K10的性能。

Top500的性能排名是基于Linpack Fortran矩阵数学测试而来的,这是一种双精度运算,不过实际应用中基于单精度的运算依然占相当大比例,这正是Tesla K10擅长的地方。

GPU计算卡在HPC中通常扮演协处理器的角色,它可以极大地提高HPC的峰值性能,四年前IBM“走鹃”计算机使用的就是AMD六核Optron处理器加IBM Cell协处理器的方式首次达到Petaflops千万亿级计算性能的。(国内的天河-1A也是处理器+协处理器的方式冲顶的,使用的协处理器就是NVIDIA Fermi架构的M2090计算卡)

c7fbdd2a1dc7b03791dde5e1d3e66d4a.png

NVIDIA在2007年正式推出Tesla计算卡,不过到2008年Tesla卡才具备基本的双精度计算能力。2010年发布的Tesla 20系列基于Fermi核心,支持GDDR5显存内ECC纠错,双精度性能也大幅提升,相比传统CPU方案,基于Tesla的HPC不仅更便宜,而且功耗更低,在散热和能耗上可以节省大笔投资。

2012年上半年的Top500超级计算机中有58套系统使用了协处理器设计,其中53套基于NVIDIA Tesla计算卡,2套使用AMD显卡,一套使用Intel刚刚定名的Xeon Phi处理器(ps:这才56套,还有2套是什么协处理器没提到)

9aabb5a6715fe2c5c0b0fd37779bc575.png

Top500中使用GPU协助计算的平台越来越多

排名前10的系统中有三套使用了Tesla计算卡,这一数值与一年前相比没有变化,11-50排名中有4套,翻了一倍,51-100的HPC中增加200%,而101-500的系统中数量增加了680%,用NVIDIA Tesla事业部高级产品经理Sumit Gupta的话说,“GPU使得HPC更加大众化,排名后400的系列中使用Tesla计算卡的系统达到前一年的8倍”。

他说实际上NVIDIA更关注的是不在Top500名单上的其他4000套HPC,NVIDIA的Tesla正在驱动HPC走向大众化。借助GPU的能力,一些规模较小的大学也构建Top500级别的小型计算中心。

为此,NVIDIA已经不再像上一代Fermi架构那样追求同步提升Tesla显卡的单精度和双精度性能,其中使用两颗GK104核心的Tesla K10主要面向单精度运算需求,浮点性能可达4.58TFLOPS,搭配8GB GDDR5显存。

基于GK110架构的Tesla K20主要面向双精度运算,双精度性能可达2TFlops,两倍于Intel刚刚宣布的Xeon Phi,二者都将在年底发布。

9c8dcd1f55e69f89f7aaafa27fa69795.png

K10上的每颗GPU都有160GB/s的带宽,整块显卡则有320GB/s的吞吐带宽,与50GB/s带宽的Sandy Bridge架构的Xeon E5-2600相比,K10达到后者的6.4倍之多,即便与前代177.6GB/s带宽的M2090相比也有近一倍提升。

说了这么多,来看看Tesla K10真正的计算性能吧,对比的是上一代的M2090,当然测试基本都是基于单精度运算的。

c9196d41d8badabac00b153ee762c0a1.png

K10展示出了强大的性能,整体大约是M2090的2-3倍。

其中,Amber是分子动力学模型软件,2009年时它在96颗X86处理器组成的服务器上花了一天时间才完成了23558个原子大约46ns(纳秒)的模拟运算,而使用8颗M2050计算卡一天内就可以完成52ns的运算,如果使用M2090则可以完成69ns的运算量。

到了今年,使用两颗K10计算卡就可以完成66ns的运算量,如果也使用8块K10运算的话那就可以完成四倍的运算量。

除了地震预测及分子动力学计算之外,K10同样也适用于卫星图像处理、视频增强、信号处理、计算机视觉、视频转码以及数字处理等领域,前提是对双精度运算要求不高。

这篇关于linux驱动K10运算卡,GPU推动HPC普及,Tesla K10性能揭秘的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/779874

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

linux-基础知识3

打包和压缩 zip 安装zip软件包 yum -y install zip unzip 压缩打包命令: zip -q -r -d -u 压缩包文件名 目录和文件名列表 -q:不显示命令执行过程-r:递归处理,打包各级子目录和文件-u:把文件增加/替换到压缩包中-d:从压缩包中删除指定的文件 解压:unzip 压缩包名 打包文件 把压缩包从服务器下载到本地 把压缩包上传到服务器(zip

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

揭秘世界上那些同时横跨两大洲的国家

我们在《世界人口过亿的一级行政区分布》盘点全球是那些人口过亿的一级行政区。 现在我们介绍五个横跨两州的国家,并整理七大洲和这些国家的KML矢量数据分析分享给大家,如果你需要这些数据,请在文末查看领取方式。 世界上横跨两大洲的国家 地球被分为七个大洲分别是亚洲、欧洲、北美洲、南美洲、非洲、大洋洲和南极洲。 七大洲示意图 其中,南极洲是无人居住的大陆,而其他六个大洲则孕育了众多国家和

三国地理揭秘:为何北伐之路如此艰难,为何诸葛亮无法攻克陇右小城?

俗话说:天时不如地利,不是随便说说,诸葛亮六出祁山,连关中陇右的几座小城都攻不下来,行军山高路险,无法携带和建造攻城器械,是最难的,所以在汉中,无论从哪一方进攻,防守方都是一夫当关,万夫莫开;再加上千里运粮,根本不需要打,司马懿只需要坚守城池拼消耗就能不战而屈人之兵。 另一边,洛阳的虎牢关,一旦突破,洛阳就无险可守,这样的进军路线,才是顺势而为的用兵之道。 读历史的时候我们常常看到某一方势

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

Linux 网络编程 --- 应用层

一、自定义协议和序列化反序列化 代码: 序列化反序列化实现网络版本计算器 二、HTTP协议 1、谈两个简单的预备知识 https://www.baidu.com/ --- 域名 --- 域名解析 --- IP地址 http的端口号为80端口,https的端口号为443 url为统一资源定位符。CSDNhttps://mp.csdn.net/mp_blog/creation/editor