本文主要是介绍文献阅读(31)2021加速器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
- 1 introduction
- 1 motivation
- 2 方法
- 题目:A Reconfigurable Neural Network Processor With Tile-Grained Multicore Pipeline for Object Detection on FPGA
- 时间:2021
- 会议:TVLSI
- 研究机构:西邮
1 introduction
本篇论文的主要贡献:
- 流水线多核处理架构,可调整多核互连,以提高可重构计算资源的利用率
- 动态配置地址以提高片上存储的利用率
- 类似近存计算的跨层特征融合
- 流水线任务调度算法以提高计算效率
- 题目:A Neural Network Training Processor With 8-Bit Shared Exponent Bias Floating Point and Multiple-Way Fused Multiply-Add Trees
- 时间:2021
- 期刊:JSSC
- 研究机构:KAIST
本篇论文的主要贡献: 提出里一个8bit 浮点数神经网络训练芯片
- 利用FP8-SEB代替fp8和fp16表示浮点数
- 针对FP8-SEB的乘加树multiple-way fused multiply-add (FMA) trees,可以在低功耗的情况下保证较高的精度
1 motivation
为什么需要edge端的训练芯片?
隐私数据保护,比如对于联邦学习,可以避免将用户的隐私数据发到数据中心
FP8-SEB除了用于神经网络训练,还能用在什么地方?
对于图像超分辨等推理任务,int8精度不够
FP8-SEB的数据表示方法如上图所示,相当于增加了阶码的位宽
2 方法
整体架构如上图所示,HP Buffer负责存储。。。,HC Buffer负责存储。。。,中间4x16 PE Array主要负责卷积的累加与计算,同时左下角有个向量处理单元,向量处理单元具体结构如下图所示,主要包含AX+Y的运算单元、寄存器堆、量化单元以及一些非线性函数
这样反向传播时的SGD函数,就可以拆解成多个AX+Y运算,形成pipeline
这篇关于文献阅读(31)2021加速器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!