【论文合集 2】- 基于忆阻器的存内计算

2024-05-10 19:28

本文主要是介绍【论文合集 2】- 基于忆阻器的存内计算,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基于忆阻器的存内计算(In-Memory Computing, IMC)是一种新兴的计算范式,它利用忆阻器(Memristor)的物理特性来执行计算任务,并将计算过程集成在存储器中。这种架构旨在解决传统冯·诺依曼架构中存在的数据传输瓶颈问题,通过减少数据在处理器和存储器之间传输的需求,从而提高计算效率和降低能耗。本节例举了基于MRAM,RRAM存储器的存内计算范式。

【1】A Survey of MRAM-Centric Computing: From Near Memory to In Memory

简介:传统的冯·诺依曼架构由于内存和处理单元之间频繁的数据交换而遭受计算性能和功耗的瓶颈问题。为了克服这一问题,基于新兴的非易失性存储设备,近存储计算(NMC)和存储器内计算(IMC)等新型计算架构的研究已经加快。在众多潜在候选技术中,基于自旋电子的磁性随机存取存储器(MRAM)因其超低开关能耗、非易失性和卓越的耐用性而成为研发热点。本文概述了以MRAM为中心的计算发展背景、趋势和挑战,并重点介绍了基于MRAM-NMC和MRAM-IMC的最近原型和应用进展。本文还讨论了MRAM技术的最新研究进展,包括新型器件结构、制造工艺、编程方案和系统集成等方面的创新。此外,还可能探讨了MRAM在特定应用中的性能表现,以及如何通过软件工具和算法优化来进一步提升MRAM-NMC和MRAM-IMC系统的整体性能。

论文链接: A Survey of MRAM-Centric Computing: From Near Memory to In Memory | IEEE Journals & Magazine | IEEE Xplore

【2】AFPR-CIM: An Analog-Domain Floating-Point RRAM-based Compute-In-Memory Architecture with Dynamic Range Adaptive FP-ADC

简介:功耗已成为边缘设备中神经网络加速器的主要关注点。基于新型非挥发性存储器(NVM)的计算存储器(CIM)架构在提高能效方面展现出巨大潜力。然而,大多数近期的NVM-CIM解决方案主要关注定点计算,并不适用于浮点(FP)处理。在本文中,我们提出了一种基于阻变随机存取存储器(RRAM)的模拟域浮点CIM架构(AFPR-CIM)。设计了一种新颖的自适应动态范围浮点模数转换器(FP-ADC),用于将模拟计算结果转换为浮点代码。具有高动态范围的输出电流被转换为标准化的电压范围以供读取,以防止在低功耗下精度损失。此外,还实现了一种新颖的浮点数模转换器(FP-DAC),它将浮点数字代码重构为模拟值以执行模拟计算。所提出的AFPR-CIM架构支持使用FP8(E2M5)激活的神经网络加速,以实现更好的准确性和能效。评估结果表明,AFPR-CIM能够达到19.89 TFLOPS/W的能效和1474.56 GOPS的吞吐量。与传统的FP8加速器、数字FP-CIM和模拟INT8-CIM相比,本工作分别实现了4.135倍、5.376倍和2.841倍的能效提升。

论文链接:https://arxiv.org/abs/2402.13798

【3】TL-nvSRAM-CIM: Ultra-High-Density Three-Level ReRAM-Assisted Computing-in-nvSRAM with DC-Power Free Restore and Ternary MAC Operations

简介:对于大规模神经网络(NN)来说,将所有权重都存储在基于SRAM的计算存储器(SRAM-CIM)芯片上仍然是一个巨大挑战,因为SRAM-CIM的片上容量有限。以前的非挥发性SRAM-CIM(nvSRAM-CIM)通过在高效的SRAM-CIM顶部集成高密度的单层ReRAM来解决这个问题,以实现权重存储,从而消除了对片外存储器访问的需求。然而,以前的单层(SL)-nvSRAM-CIM在SL-ReRAM数量增加时面临可扩展性差和计算效率有限的问题。为了克服这些挑战,本项工作提出了一种超高密度的三层ReRAM辅助非挥发性SRAM(TL-nvSRAM-CIM)方案,用于大型NN模型。采用集群n选择器-n ReRAM(cluster-nSnRs)进行可靠的权重恢复,并消除了直流电源。此外,提出了一种具有差分计算方案的三进制SRAM-CIM机制,用于在保持高NN精度的同时进行节能的三进制MAC操作。所提出的TL-nvSRAM-CIM实现了比现有工作高7.8倍的存储密度。此外,与SRAM-CIM和ReRAM-CIM的基线设计相比,TL-nvSRAM-CIM分别显示出高达2.9倍和1.9倍的能效提升。 

论文链接:https://arxiv.org/abs/2307.02717

【4】A noise-tolerant, resource-saving probabilistic binary neural network implemented by the SOT-MRAM compute-in-memory system 

简介:本文提出的基于SOT-MRAM的PBNN系统通过利用MRAM的随机性和CIM架构的并行性,实现了高效的神经网络计算,这对于开发低功耗和高容错性的AI硬件具有重要意义。一种基于自旋转矩扭矩(SOT)磁阻随机存取存储器(MRAM)的概率二进制神经网络(PBNN),用于节省资源和硬件容错计算应用。在热波动的影响下,非破坏性的SOT驱动的磁化翻转特性导致了一个具有可控概率分布的随机权重矩阵。与此同时,所提出的计算存储器(CIM)架构允许并发执行概率向量-矩阵乘法(PVMM)和二值化。此外,利用随机二进制单元传递多位概率信息的有效性,我们的SOT-MRAM基PBNN系统在MNIST数据库上通过10个采样周期,在7.01%的权重变化下实现了97.78%的分类准确率,并且与全精度LeNet-5网络相比,位级计算操作的数量减少了6.9倍。我们的工作为设计适用于低功耗和有限计算资源应用的可靠神经网络提供了一个引人注目的框架。

论文链接:https://arxiv.org/abs/2403.19374 

这篇关于【论文合集 2】- 基于忆阻器的存内计算的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/977344

相关文章

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

poj 1113 凸包+简单几何计算

题意: 给N个平面上的点,现在要在离点外L米处建城墙,使得城墙把所有点都包含进去且城墙的长度最短。 解析: 韬哥出的某次训练赛上A出的第一道计算几何,算是大水题吧。 用convexhull算法把凸包求出来,然后加加减减就A了。 计算见下图: 好久没玩画图了啊好开心。 代码: #include <iostream>#include <cstdio>#inclu

uva 1342 欧拉定理(计算几何模板)

题意: 给几个点,把这几个点用直线连起来,求这些直线把平面分成了几个。 解析: 欧拉定理: 顶点数 + 面数 - 边数= 2。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#inc

uva 11178 计算集合模板题

题意: 求三角形行三个角三等分点射线交出的内三角形坐标。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <stack>#include <vector>#include <

XTU 1237 计算几何

题面: Magic Triangle Problem Description: Huangriq is a respectful acmer in ACM team of XTU because he brought the best place in regional contest in history of XTU. Huangriq works in a big compa

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

EasyPlayer.js网页H5 Web js播放器能力合集

最近遇到一个需求,要求做一款播放器,发现能力上跟EasyPlayer.js基本一致,满足要求: 需求 功性能 分类 需求描述 功能 预览 分屏模式 单分屏(单屏/全屏) 多分屏(2*2) 多分屏(3*3) 多分屏(4*4) 播放控制 播放(单个或全部) 暂停(暂停时展示最后一帧画面) 停止(单个或全部) 声音控制(开关/音量调节) 主辅码流切换 辅助功能 屏

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显