深度学习硬件(GPU、FPGA、ASIC、DSP)

2023-12-28 00:38

本文主要是介绍深度学习硬件(GPU、FPGA、ASIC、DSP),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

深度学习最近取得的成功势不可挡:从图像分类和语音识别到图片标注、理解视觉场景、视频概述、语言翻译、绘画,甚至是生成图像、语音、声音和音乐! 随着我们的家变得越来越智能,你会发现许多设备都会需要连续地使用深度学习应用、收集和处理数据。

所以我们需要新的硬件,一个比 Intel Xeon 所驱动的服务器更加高效的硬件。一个英特尔服务器 CPU 可能会消耗 100-150 瓦功率并需要一个有着冷却装置的超大系统来支持其性能的正常发挥。

图形处理器、GPU
现场可编程的逻辑器件、FPGA(现场可编程门阵列/Field-Programmable Gate Array)
定制芯片、特殊应用型集成电路、ASIC
数字信号处理器、DSP
未来的、外星人发明的、由新的物理定律所发展出的技术

GPU

GPU 最早是为生成基于多边形网络的计算机图形而设计的。在最近几年,由于近来计算机游戏和图形引擎领域的需求和复杂度需要,GPU 积累了强大的处理性能。英伟达是 GPU 领域的领军者,能生产有数千个内核的处理器,这些内核的设计工作效率可以达到 100%。实际上这些处理器也非常适用于运行神经网络和矩阵乘法方面的计算。注意,矩阵向量的乘法运算被认为是「尴尬的并行(embarrassingly parallel)」,因为它可以通过简单的算法扩展被并行化(它们缺少分支因而可以避免缓存信息丢失)。

由于 GPU 的超多核(~3500 个,对比 Intel Xeon 的 16 个/ Xeon Phi 的 32 个),英特尔的 CPU 和英伟达的 GPU 之间的竞争助长了后者的发展,使其 GPU 比 CPU 在时钟频率快 2~3 倍。GPU 核是更为复杂(分支预测和流程)的 CPU 核的流线型版本,但是前者许多都支持更高级别的并行运算,因而拥有更好的性能。

这种 GPU 很擅长训练深度学习系统——卷积神经网络或者循环神经网络。它们可以在仅仅几毫秒之内就运行一批 128 或 256 张图像。但是它们同时也会消耗大约 250 瓦的功率并且需要一个完整的计算机来支持运行,这又消耗了额外的 150 瓦的功率。一个高性能的 GPU 系统至少需要消耗 400 瓦的功率。

这并不适用于增强现实眼镜、无人机、手机、移动设备和小型机器人。甚至对于未来的消费级自动驾驶汽车来说也是不可接受的。

英伟达正在致力于开发效率更高的器件,比如 Tegra TX1、TX2(深度神经网络需要 12 瓦的能耗和每秒 ~100 千兆次浮点运算的性能,TX2 需要的更多)和更强大的 Drive PX(250 瓦,与一个 Titan X 的消耗量差不多)。

这里还要注意,在自动驾驶汽车和智能摄像机中,直播视频是必要的而图像批处理是不可能实现的,因为视频需要针对及时响应进行实时处理。

一般 GPU 的水平大约是 5 G-flops/s per W。如果我们想在移动系统中部署深度学习解决方案,那我们还需要更好的方法!

GPU和CPU
GPU的工作大部分是这样:计算量大,但没什么技术含量,而且要重复很多很多次。
CPU和GPU因为最初用来处理的任务就不同。
CPU需要很强的通用性来处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理。这些都使得CPU的内部结构异常复杂。而GPU面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境。

FPGA

Xilinx 等公司的现代 FPGA 器件就是电子元器件中的乐高。我们可以使用其电路作为模块来构建出整个定制微处理器和复杂的异构系统。而在最近几年,FPGA 开始生产出越来越多的乘累加计算模块。这些 DSP 模块正如其名,能够执行乘法运算并可以被排列到一起来进行一定量的并行运算。

定制 SoC

高通、AMD、ARM、英特尔和英伟达都在致力于将定制化芯片整合进它们的现有解决方案中。Nervana 和 Movidius(目前都在英特尔旗下)已经或者说正在开发集合方案。SoC 在同一技术节点上所能提供的性能大约是 FPGA 系统的 10 倍,在特定结构中还要更高。由于 SoC 和处理器所需的功率变得越来越低,其区别将来自于新的集合内存系统和带宽对外部存储器的有效利用。在这一领域,整合为 systems-on-a-package(SOP)的 3D memory 至少可以节约 10 倍的功率。

DSP

DSP 已经存在了很长一段时间,它最初是用来执行矩阵算法的。但到目前为止,DSP 并没能真正提供任何有用的性能或是可以与 GPU 相匹敌的器件。为什么会这样呢?其主要原因就是核数量。DSP 主要用于电信系统,且无需拥有 16 个或 32 个以上的核。其工作负载并不需要这么多。相反,GPU 负载在近 10~15 年间一直在增加,因此它需要更多的核。最终,大约从 2006 年开始,英伟达的 GPU 在性能上就超过了 DSP。

Texas Instruments 公司还在开发 DSP,但是我们从中并没有看到任何有竞争力的性能。且许多 DSP 也已经被 FPGA 取代了。

Qualcomm 在它们的 SoC 中使用 DSP,并且其性能会有所加速,但是目前还没有足够多的信息来将它与其它的解决方案进行比较。

这篇关于深度学习硬件(GPU、FPGA、ASIC、DSP)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/544702

相关文章

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一

如何安装HWE内核? Ubuntu安装hwe内核解决硬件太新的问题

《如何安装HWE内核?Ubuntu安装hwe内核解决硬件太新的问题》今天的主角就是hwe内核(hardwareenablementkernel),一般安装的Ubuntu都是初始内核,不能很好地支... 对于追求系统稳定性,又想充分利用最新硬件特性的 Ubuntu 用户来说,HWEXBQgUbdlna(Har

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识