IBM展示非冯·诺依曼架构AI芯片NorthPole

2023-10-25 10:36

本文主要是介绍IBM展示非冯·诺依曼架构AI芯片NorthPole,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!





 



我们正处于人工智能的“寒武纪大爆发”时期。在过去的十年中,人工智能已经从理论和小型测试发展到企业规模的使用案例。但是,用于运行人工智能系统的硬件虽然越来越强大,但在设计时却没有考虑到当今的人工智能。随着人工智能系统规模的扩大,成本也随之飙升。而摩尔定律,即处理器电路密度每年翻一番的理论,已经放缓。

但是,位于加利福尼亚州阿尔马登的 IBM 研究实验室经过近二十年的努力,终于完成了一项新的研究,它有可能彻底改变我们如何高效地扩展强大的人工智能硬件系统。

自半导体工业诞生以来,计算机芯片主要遵循相同的基本结构,即处理单元和存储待处理信息的内存是离散存储的。虽然这种结构使得设计更加简单,几十年来一直能够很好地扩展,但它也造成了所谓的冯-诺依曼瓶颈,即在内存、处理单元和芯片内的任何其他设备之间不断地来回切换数据都需要时间和能量。IBM 研究院的达曼德拉-莫德哈(Dharmendra Modha)和他的同事们从大脑的计算方式中汲取灵感,旨在改变这种状况。"莫德哈说:"它开辟了一条与冯-诺依曼架构完全不同的道路"。

过去八年来,Modha 一直在研究一种用于神经推理的新型数字人工智能芯片,这就是 NorthPole。它是 Modha在2014年开发的类脑芯片 TrueNorth 的延伸。在对流行的 ResNet-50 图像识别和 YOLOv4 物体检测模型的测试中,新的原型设备比目前市场上的任何其他芯片都表现出更高的能效、更高的空间效率和更低的延迟,速度大约是 TrueNorth 的 4000 倍。

NorthPole 芯片取得的第一批令人鼓舞的成果发表在今天的《科学》杂志上。Modha表示,NorthPole是芯片架构的一个突破,它在能源、空间和时间效率方面都有巨大的改进。以ResNet-50模型为基准,NorthPole的效率大大高于普通的12纳米GPU和14纳米CPU。(在这两种情况下,NorthPole 的能效是普通 12nm GPU 和 14nm CPU 的 25 倍(NorthPole 本身就是基于 12nm 节点处理技术构建的)。就每十亿个晶体管每秒所需的解释帧数而言,NorthPole 在延迟和计算所需空间方面也更胜一筹。根据 Modha 的说法,在 ResNet-50 上,NorthPole 的性能优于所有主流架构,甚至优于那些使用更先进技术工艺的架构,例如使用 4nm 工艺实现的 GPU。

它是如何做到比现有芯片的计算效率如此之高的呢?NorthPole 最大的不同之处在于,设备的所有内存都在芯片上,而不是单独连接。没有了冯-诺依曼瓶颈,该芯片进行人工智能推理的速度大大快于市场上的其他芯片。NorthPole 采用 12 纳米节点工艺制造,在 800 平方毫米内包含 220 亿个晶体管。它有 256 个内核,在 8 位精度下,每个内核每个周期可执行 2,048 次运算,在 4 位和 2 位精度下,运算次数有可能分别增加一倍和四倍。"Modha说:"这是一个芯片上的整体网络。
 



Modha说:"从架构上讲,NorthPole模糊了计算与内存之间的界限。"在单个内核层面,NorthPole表现为接近计算的内存,而在芯片外部,在输入输出层面,它表现为活动内存。这使得 NorthPole 很容易集成到系统中,并大大减轻了主机的负担。

但是,NorthPole 的最大优势同时也是一种限制:它只能轻松地从板载内存中提取数据。如果必须从其他地方获取信息,芯片上可能实现的所有加速都会被削弱。通过一种称为 "扩展"(scale-out)的方法,NorthPole 可以将更大的神经网络分解成适合 NorthPole 模型内存的更小的子网络,并将这些子网络连接到多个 NorthPole 芯片上,从而支持更大的神经网络。因此,虽然一个 NorthPole(或一组 NorthPole 的总和)上有充足的内存,可用于许多对特定应用有用的模型,但这种芯片并不是万能的。"Modha 说:"我们不能在上面运行 **-4,但我们可以为企业需要的许多模型提供服务。"当然,NorthPole 也只能用于推理。

这种功效意味着该设备也不需要笨重的液冷系统来运行--风扇和散热片就足够了--也就是说它可以部署在一些相当狭小的空间里。



NorthPole 的潜在应用
尽管对 NorthPole 芯片的研究仍在进行中,但其结构适合新兴的人工智能用例以及更成熟的用例。

在测试过程中,NorthPole 团队主要关注与计算机视觉相关的应用,部分原因是该项目的资金来自美国国防部。考虑的一些主要应用包括检测、图像分割和视频分类。但它也在其他领域进行了测试,如自然语言处理(在仅编码器的 BERT 模型上)和语音识别(在 DeepSpeech2 模型上)。该团队目前正在探索将纯解码器大型语言模型映射到 NorthPole 扩展系统。

一想到这些人工智能任务,各种天马行空的用例就会涌上心头,从自动驾驶汽车到机器人、数字助理或空间计算。许多需要实时处理大量数据的边缘应用都非常适合 NorthPole。例如,NorthPole 有可能成为将自动驾驶汽车从需要设定地图和路线才能在小范围内运行的机器,转变为能够对罕见的边缘情况进行思考并做出反应的设备。这些边缘情况正是 NorthPole 未来应用的甜蜜点。NorthPole 可使卫星监控农业和管理野生动物种群,监控车辆和货运以减少道路拥堵,安全操作机器人,以及检测网络威胁以确保企业安全。

下一步工作
这只是 Modha 在 NorthPole 上工作的开始。目前最先进的中央处理器是 3 纳米,而 IBM 本身已经在 2 纳米节点上进行了多年的研究。这意味着,除了基本的架构创新外,NorthPole 还可以在几代芯片处理技术上实现,从而不断提高效率和性能。


NorthPole大部分成员合照,中为Modha

但对 Modha 来说,这只是他过去 19 年职业生涯中的一个重要里程碑。在这段时间里,他一直在研究受大脑启发的数字芯片,他知道大脑是我们已知的最节能的处理器,并一直在寻找以数字方式复制大脑的方法。TrueNorth 的灵感完全来源于大脑中的神经元结构--其中的数字 "突触 "就像蜜蜂的大脑一样多。但 2015 年, Modha 坐在旧金山一个公园的长椅上,说他正在思考自己迄今为止的工作。他相信,将传统处理设备的精华与大脑的处理结构结合在一起,一定会有所收获,因为大脑中的记忆和处理都是穿插进行的。莫德哈认为,答案就是 "大脑启发的计算,但具有硅片的速度"。

在接下来的八年里, Modha 和他的同事们一心一意、密不透风地致力于将这一愿景变为现实。他们在阿尔马登默默无闻地工作着,直到今年,他们才就自己的工作发表过任何演讲或论文。每个人都带来了不同的技能和观点,但每个人都通力合作,因此团队的整体贡献远远大于各部分的总和。现在,我们的计划是展示 NorthPole 的能力,同时探索如何将设计转化为更小的芯片生产流程,并进一步探索架构的可能性。

这项工作源于一个简单的想法--我们如何才能制造出像大脑一样工作的计算机--经过多年的基础研究,我们终于找到了答案。如今,只有在 IBM 研究院这样的地方才有可能实现这一目标,因为这里有足够的时间和空间来探索计算领域的重大问题,以及这些问题会将我们带向何方。"NorthPole是大脑在硅片镜面上的微弱呈现。

这篇关于IBM展示非冯·诺依曼架构AI芯片NorthPole的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/281981

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

mybatis的整体架构

mybatis的整体架构分为三层: 1.基础支持层 该层包括:数据源模块、事务管理模块、缓存模块、Binding模块、反射模块、类型转换模块、日志模块、资源加载模块、解析器模块 2.核心处理层 该层包括:配置解析、参数映射、SQL解析、SQL执行、结果集映射、插件 3.接口层 该层包括:SqlSession 基础支持层 该层保护mybatis的基础模块,它们为核心处理层提供了良好的支撑。

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

AI行业应用(不定期更新)

ChatPDF 可以让你上传一个 PDF 文件,然后针对这个 PDF 进行小结和提问。你可以把各种各样你要研究的分析报告交给它,快速获取到想要知道的信息。https://www.chatpdf.com/

【北交大信息所AI-Max2】使用方法

BJTU信息所集群AI_MAX2使用方法 使用的前提是预约到相应的算力卡,拥有登录权限的账号密码,一般为导师组共用一个。 有浏览器、ssh工具就可以。 1.新建集群Terminal 浏览器登陆10.126.62.75 (如果是1集群把75改成66) 交互式开发 执行器选Terminal 密码随便设一个(需记住) 工作空间:私有数据、全部文件 加速器选GeForce_RTX_2080_Ti