【2021集创赛】海云捷迅杯一等奖:基于稀疏卷积与层融合的流水线优化方案

本文主要是介绍【2021集创赛】海云捷迅杯一等奖:基于稀疏卷积与层融合的流水线优化方案,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

海云捷迅杯:基于FPGA C5Soc的MobileNetV1 SSD目标检测方案设计

本作品参与极术社区组织的有奖征集|秀出你的集创赛作品风采,免费电子产品等你拿~活动。

**杯赛题目:**海云捷迅杯——基于FPGA C5Soc的MobileNetV1 SSD目标检测方案设计
设计任务:

  1. 基于已训练好的SSD模型参数文件、基于已有的Intel FPGA工程网表文件、Linux-C5soc平台的Paddle-Paddle框架驱动为参考,优化或者重新设计加速器以及对应驱动,并部署SSD模型到FPGA进行推理。
  2. 对方案进行评估和实现。
  3. 提出设计方案,提升性能并实现。

团队介绍

**参赛单位:**南京大学
**队伍名称:**爱卡丝俱乐部
**指导老师:**王中风
**参赛队员:**薛睿鑫、程昕、苏天祺
**总决赛奖项:**一等奖和企业大奖

项目介绍

本项目采用Intel Cyclone V系列的SoC芯片进行开发,部署以MobileNet V1为backbone的SSD目标检测模型,对硬软件进行协同优化,以提高目标检测效率。整个系统包括PS (processing system) 端和PL (programmable logic) 端两部分,PS端包括ARM处理器、Memory,负责数据传输及计算流程的预处理和控制;PL端则包括卷积和偏置激活计算单元、SRAM等,负责对高负载的运算进行加速。PL端的数据通过Avalon总线与DRAM进行交互。

我们在量化排序传输计算流水线这五个方面对系统进行了优化,具体的优化手段如下图所示。通过上述优化,目标检测的速度提升超过3.5倍

在这里插入图片描述

我们的技术创新点体现在以下几个方面:

  1. 重新设计了稀疏卷积的数据流,采用Row-wise、Weight stationary的滑窗卷积方式,将计算并行度提高到96,并支持channel-wise的input数据稀疏,提高了FPGA上数据的复用性,大大减少数据的传输量,从而减少数据的传输时间、降低功耗。
  2. 采用层融合方式处理每层的偏置和激活操作,在FPGA上的卷积计算完成后,将结果直接传到偏置激活计算单元进行计算,再将偏置激活的计算结果经过SRAM传到片外。这样一方面能够加速偏置激活的计算,另一方面,经过偏置激活的计算后,数据能够支持量化为更低比特而不损失精度,从而进一步减少数据的传输。
  3. 增加input、weight、bias和output四个 Ping Pong Buffer,使数据传输与计算时间能够重叠,这样进一步优化了数据计算的流水线,在同一时间内进行数据传输和计算,从而实现对系统的加速。
  4. 在进行模型预测之前将量化并重排的权重和偏置保存,避免每次预测时对权重和偏置数据的重复量化和重排。

系统架构

为实现快速的目标检测效果,我们设计的系统整体架构图如下图所示。数据经UpSizer和BusMatrix单元进行仲裁,存储到相应的SRAM中。当计算开始时,卷积模块可以直接从SRAM中读取数据,卷积的结果直接传入BiasRelu单元进行计算,再写入Output Ping Pong Buffer,最终的output再经过BusMatrix和UpSizer单元传回DRAM。

在这里插入图片描述

优化效果

经过充分的仿真验证和上板调试,系统能够正确完成目标检测任务,最终的目标识别速度能够达到最快每张图836ms

在这里插入图片描述

我们统计了优化前后卷积层的加速比,结果如下图所示,相比原始优化前的系统,我们的加速系统能够实现最高39倍加速比平均4.5倍加速比

在这里插入图片描述

参赛体会

这次比赛,给了我们一个很好的机会,提升硬软件协同开发的能力。从硬件数据流的设计到代码的调试,我们一步一个脚印,提出了很多优化的方案,并评估它们的可行性,最终实现了上面所述的加速系统。团队的成员也能够优势互补,在讨论中碰撞出了很多火花。非常感谢实验室的学长学姐和赛事指导老师曾给予我们的帮助,在我们遇到难题时帮助我们指明解决问题的方向。

在这里插入图片描述

未来展望

  1. 针对深度卷积进行层融合优化。将深度卷积与前一层的卷积融合,减少中间数据的传输。
  2. 利用DMA进行片上与片下数据的传输,提高传输效率。
  3. 探索更加有效的量化方式,能够进一步减少数据的传输量的同时保持精度。

总结

我们在官方提供的系统基础上进行优化,成功在Intel Cyclon V SoC芯片上部署了以MobileNet v1为backbone网络的SSD目标检测模型,联合优化ARM端和FPGA端,实现了硬件加速效果。
我们有针对性地设计了稀疏卷积和偏置激活计算的数据流,提高FPGA上数据的复用性,减少数据传输;偏置激活的计算与卷积采用层融合的流水线进行优化,能够在加速偏置激活计算的同时,实现更低比特的数据量化,进一步减少数据的传输;Ping Pong Buffer优化的数据传输与计算流水线,使得数据的计算和传输能够在同一时间进行,减少了计算的空闲状态;此外,我们还优化了模型的量化操作,在进行模型预测之前将量化后的权重和偏置保存,避免每次量化时对权重和偏置数据的重复量化。以上工作共同作用,大大优化了系统的整体性能,提升计算速度。
最后的实验结果表明,我们的设计分别在模型中的普通卷积层和逐点卷积层上实现了最高39×和平均4.5×的加速比。在上板测试中,我们在保证结果正确的情况下,将单张图片的识别速度从3000ms提升到了836ms,取得了超过3.5倍的速度提升。

作品内容来源于爱卡丝俱乐部,转载请标明出处。欢迎大家参加极术社区组织的有奖征集|秀出你的集创赛作品风采,免费电子产品等你拿~活动,10月1日截止~

这篇关于【2021集创赛】海云捷迅杯一等奖:基于稀疏卷积与层融合的流水线优化方案的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/325279

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

高效+灵活,万博智云全球发布AWS无代理跨云容灾方案!

摘要 近日,万博智云推出了基于AWS的无代理跨云容灾解决方案,并与拉丁美洲,中东,亚洲的合作伙伴面向全球开展了联合发布。这一方案以AWS应用环境为基础,将HyperBDR平台的高效、灵活和成本效益优势与无代理功能相结合,为全球企业带来实现了更便捷、经济的数据保护。 一、全球联合发布 9月2日,万博智云CEO Michael Wong在线上平台发布AWS无代理跨云容灾解决方案的阐述视频,介绍了

Android平台播放RTSP流的几种方案探究(VLC VS ExoPlayer VS SmartPlayer)

技术背景 好多开发者需要遴选Android平台RTSP直播播放器的时候,不知道如何选的好,本文针对常用的方案,做个大概的说明: 1. 使用VLC for Android VLC Media Player(VLC多媒体播放器),最初命名为VideoLAN客户端,是VideoLAN品牌产品,是VideoLAN计划的多媒体播放器。它支持众多音频与视频解码器及文件格式,并支持DVD影音光盘,VCD影

MySQL高性能优化规范

前言:      笔者最近上班途中突然想丰富下自己的数据库优化技能。于是在查阅了多篇文章后,总结出了这篇! 数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

韦季李输入法_输入法和鼠标的深度融合

在数字化输入的新纪元,传统键盘输入方式正悄然进化。以往,面对实体键盘,我们常需目光游离于屏幕与键盘之间,以确认指尖下的精准位置。而屏幕键盘虽直观可见,却常因占据屏幕空间,迫使我们在操作与视野间做出妥协,频繁调整布局以兼顾输入与界面浏览。 幸而,韦季李输入法的横空出世,彻底颠覆了这一现状。它不仅对输入界面进行了革命性的重构,更巧妙地将鼠标这一传统外设融入其中,开创了一种前所未有的交互体验。 想象

JavaFX应用更新检测功能(在线自动更新方案)

JavaFX开发的桌面应用属于C端,一般来说需要版本检测和自动更新功能,这里记录一下一种版本检测和自动更新的方法。 1. 整体方案 JavaFX.应用版本检测、自动更新主要涉及一下步骤: 读取本地应用版本拉取远程版本并比较两个版本如果需要升级,那么拉取更新历史弹出升级控制窗口用户选择升级时,拉取升级包解压,重启应用用户选择忽略时,本地版本标志为忽略版本用户选择取消时,隐藏升级控制窗口 2.