脉冲神经网络(SNN)论文阅读(五)-----AAAI-2024 时间步长逐渐收缩的SNN

本文主要是介绍脉冲神经网络(SNN)论文阅读(五)-----AAAI-2024 时间步长逐渐收缩的SNN,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文链接:CSDN-脉冲神经网络(SNN)论文阅读(五)-----AAAI-2024 时间步长逐渐收缩的SNN

Shrinking Your TimeStep: Towards Low-Latency Neuromorphic Object Recognition with Spiking Neural Networks

  • 目录
    • 论文信息
    • 主要贡献
    • Timestep Shrinkage
    • Early Classifier
    • 完整的SSNN训练算法
    • 实验验证及对比

目录

论文信息

论文地址
arXiv版本(带有附录)地址
由电子科技大学(左琳教授团队)研究人员发表于AAAI 2024。

主要贡献

  • 第一个具有异质性时间步长的SNN
  • 论文提出了Shrinking SNN (SSNN),SNN的时间步长逐渐收缩,相比于普通的SNN,SSNN的平均时间步长更低,从而实现低延迟、高性能的神经形态目标识别;Timestep Shrinkage方法
  • 论文在SNN的多个阶段后引入额外的分类器辅助训练,推理时则无需辅助分类器。从而缓解了代理梯度和真实梯度的误差以及梯度消失/爆炸问题。Early Classifier方法
    在这里插入图片描述

Timestep Shrinkage

将SNN划分为多个阶段,其中每个阶段的时间步长逐渐收缩降低。
初始阶段的时间步长稍大,以使得SNN能够提取到充分有价值的信息;后面的阶段时间步长较小,以降低整体的推理时延。
MLF方法基于LIF神经元,其主要思路为使用MLF unit(可以理解为新的脉冲神经元)替换掉SNN中的LIF神经元。

Temporal Transformer转换时间步长收缩前后两个阶段的信息维度

  • 时间步长收缩需要解决的问题:假设前后两个阶段的时间步长分别为 T 1 T_1 T1 T 2 T_2 T2,则两个阶段传递的数据维度分别为 T 1 × C × H × W T_1 \times C \times H \times W T1×C×H×W T 2 × C × H × W T_2 \times C \times H \times W T2×C×H×W。需要在时间步长收缩的同时转换前一个阶段的输出维度,以使其能够用作后一个阶段的输入。

  • Temporal Transformer:设计了轻量化的Temporal Transformer来转换信息的维度,并最大化地保留有价值的信息。

    • 对于前一个阶段的输出 O 1 ∈ R T 1 × C × H × W \boldsymbol{O}_1 \in \mathbb{R}^{T_1 \times C \times H \times W} O1RT1×C×H×W先计算 T 1 T_1 T1个时间步长内每个时间步长的总信息 O 1 a v g ∈ R T 1 × 1 \boldsymbol{O}_1^{avg} \in \mathbb{R}^{T_1 \times 1} O1avgRT1×1
      O 1 a v g = 1 C × H × W ∑ i = 1 C ∑ j = 1 H ∑ k = 1 W O 1 , i , j , k , \boldsymbol{O}_1^{avg} = \frac {1}{C \times H \times W} \displaystyle \sum_{i=1}^{C} \sum_{j=1}^{H} \sum_{k=1}^{W}\boldsymbol{O}_{1,i,j,k}, O1avg=C×H×W1i=1Cj=1Hk=1WO1,i,j,k,
      然后使用非线性转换以及softmax计算 T 2 T_2 T2个时间步长的重要性分数 d ∈ R T 2 × 1 \boldsymbol{d} \in \mathbb{R}^{T_2 \times 1} dRT2×1
      d = softmax ( W O 1 a v g ) , \boldsymbol{d} = \text{softmax} (\boldsymbol{W}\boldsymbol{O}_1^{avg}), d=softmax(WO1avg),
      其中 W ∈ R T 2 × T 1 \boldsymbol{W} \in \mathbb{R}^{T_2 \times T_1} WRT2×T1是非线性转换的可学习权重。softmax函数保证 T 2 T_2 T2个时间步长的重要性分数之和为1,确保后续的信息分配的完整性。
      另一方面,计算 O 1 O_1 O1 T 1 T_1 T1个时间步长内的信息之和(所有时间步长的数据累加) O 1 t o t a l ∈ R C × H × W \boldsymbol{O}_1^{total} \in \mathbb{R}^{C \times H \times W} O1totalRC×H×W,并依据 d d d将其分配至 T 2 T_2 T2个时间步长内,得到用于后续阶段的输入 I 2 ∈ R T 2 × C × H × W \boldsymbol{I}_2 \in \mathbb{R}^{T_2 \times C \times H \times W} I2RT2×C×H×W
      I 2 , t = O 1 t o t a l ⊙ d t = ∑ t ′ = 1 T 1 O 1 , t ′ ⊙ d t , \boldsymbol{I}_{2,t} = \boldsymbol{O}_1^{total} \odot \boldsymbol{d}_t = \sum_{t^{'}=1}^{T_1}\boldsymbol{O}_{1,t^{'}} \odot \boldsymbol{d}_t, I2,t=O1totaldt=t=1T1O1,tdt,
      从而在实现时间步长收缩的同时保留有效信息。
  • 平均时间步长

    • 假设SNN被分为 n n n个阶段,每个阶段有 n i n_i ni个计算单元(一个卷积层以及脉冲神经元层),每个阶段的时间步长是 T i T_i Ti,则使用时间步长收缩得到的SNN的平均时间步长可计算为:
      T a v g = ∑ i n n i T i ∑ i n n i . T_{avg}=\frac {\sum_i^n {n_iT_i}} {\sum_i^n n_i}. Tavg=inniinniTi.
    • 由于上式不包含用于分类的全连接层,而全连接层以最小的时间步长 T n T_n Tn运行,因此实际的时间步长要比上式计算得到的结果更小。
  • 额外开销

    • 每次时间步长收缩时的Temporal Transformer仅需要一个线性层来实现,所需的开销极小。

Early Classifier

  • 基于代理梯度训练SNN遭受着代理梯度和真实梯度不匹配的问题,从而限制了SNN的性能。另外,梯度消失/爆炸问题始终影响着SNN的性能。这些问题对高性能SNN的训练造成了极大的困扰。
  • 为了缓和以上问题,受到ANN领域部分方法的启发,提出在训练时候在SNN的每个阶段后添加一个early classifier,early classifier与标签计算损失并且在反向传播时传递梯度。
  • 由于这些early classifier比SNN最终的分类器更靠近网络的前面层,因此这些early classifier传递的梯度受到梯度不匹配、梯度爆炸/消失的影响更小,从而促进了SNN的训练。
  • 每个early classifier都由卷积层、脉冲神经元层和全连接层组成。进一步地,可以为每一个early classifier设置不同的结构以探索更优的性能增益或是设置一个全局共享的early classifier降低训练期间的开销。
  • SNN训练的最终损失由多个early classifier和最终的输出与标签计算损失并加权得到:
    L t o t a l = ∑ i n λ i L i ( 1 T i ∑ t T i Y i , t , Y ^ ) \mathcal{L}_{total}=\sum_i^n {\lambda_i \mathcal{L}_i(\frac{1}{T_i}\sum_t^{T_i} {\boldsymbol{Y}_{i,t},\hat{\boldsymbol{Y}}})} Ltotal=inλiLi(Ti1tTiYi,t,Y^)
  • 额外开销:early classifier仅在推理时引入了部分计算及参数开销,不影响推理时SNN的效率。

完整的SSNN训练算法

在这里插入图片描述

实验验证及对比

  • 在CIFAR10-DVS、N-Caltech101和DVS-Gesture三个神经形态数据集上使用ResNet、VGG架构进行消融实验,平均时间步长设置为5,其性能比baseline大幅提升:
    在这里插入图片描述
  • 在消融实验部分探究了控制多个early classifier的loss权重对性能的影响,实验结果表明只要权重在合理的范围内,SSNN对不同的权重组合并不敏感,始终具有较好的性能:
    在这里插入图片描述* 在消融实验部分探究并验证了所提出的Temporal Transformer的效果:
    在这里插入图片描述
  • 基于VGG-9,探究了SSNN划分阶段数量和每个阶段的时间步长对性能的影响,实验结果表明SSNN对阶段划分数量和每个阶段的时间步长设置并不敏感:
    在这里插入图片描述
  • 在不同的平均时间步长下,SSNN始终比普通的SNN具有更好的效果:
    在这里插入图片描述
  • 与现有的SNN方法或架构对比,SSNN基于VGG-9、ResNet架构都取得了更好的效果,甚至超出了Spikformer:
    在这里插入图片描述
  • SSNN与普通的SNN进行脉冲发射率的可视化对比,SSNN能够精确地关注到与识别最相关的区域(DVS-Gesture中的手势部分):
    在这里插入图片描述

本文由CSDN-lan人啊原创,转载请注明!

这篇关于脉冲神经网络(SNN)论文阅读(五)-----AAAI-2024 时间步长逐渐收缩的SNN的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/599607

相关文章

服务器集群同步时间手记

1.时间服务器配置(必须root用户) (1)检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 (2)修改ntp配置文件 [r

2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题

题库来源:安全生产模拟考试一点通公众号小程序 2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题是由安全生产模拟考试一点通提供,流动式起重机司机证模拟考试题库是根据流动式起重机司机最新版教材,流动式起重机司机大纲整理而成(含2024年流动式起重机司机证模拟考试题库及流动式起重机司机理论考试试题参考答案和部分工种参考解析),掌握本资料和学校方法,考试容易。流动式起重机司机考试技

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

2024网安周今日开幕,亚信安全亮相30城

2024年国家网络安全宣传周今天在广州拉开帷幕。今年网安周继续以“网络安全为人民,网络安全靠人民”为主题。2024年国家网络安全宣传周涵盖了1场开幕式、1场高峰论坛、5个重要活动、15场分论坛/座谈会/闭门会、6个主题日活动和网络安全“六进”活动。亚信安全出席2024年国家网络安全宣传周开幕式和主论坛,并将通过线下宣讲、创意科普、成果展示等多种形式,让广大民众看得懂、记得住安全知识,同时还

2024/9/8 c++ smart

1.通过自己编写的class来实现unique_ptr指针的功能 #include <iostream> using namespace std; template<class T> class unique_ptr { public:         //无参构造函数         unique_ptr();         //有参构造函数         unique_ptr(

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快