本文主要是介绍论文:Accel A Corrective Fusion Network forEfficient Semantic Segmentation on Video,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
这是一篇2019CVPR(oral)的文章,也是我几个月前看的,有人说这篇文章有点水,给CVPR颁“金酸莓奖”,知乎网友热议最差论文,战火烧到Reddit论坛,所以我当时也没认真看了。
论文地址:Accel: A Corrective Fusion Network forEfficient Semantic Segmentation on Video
code:https://github.com/SamvitJ/Accel
Conclusion:Accel是一种快速、高精度视频分割系统,利用组合预测能力的两个网络途径:(1)一个参考分支NR的引用,引用关键帧提取优质特性,这些特性和扭曲提出使用增量光流估计,和(2)一个更新分支NU促进修正当前帧累积的时间错误引用表示。综合实验证明了一系列的精确推理速度模式,从高吞吐量的Accel版本,它比可比的单帧模型更快,更准确,到高精度的版本,它超过了最先进的水平。在所有关键帧间隔上,Accel模型的整体性能始终优于之前的工作,而消融研究表明,相对于单个组件,Accel具有显著的精度提高。最后,Accel体系结构是模块化和端到端可训练的,为如何在视频上高效地执行密集预测任务提供了一个通用的例子。
创新点:Accel模型,引入光流或者运动矢量的概念,提升了分割精度的同时降低了计算量,比较模型为deeplab
这篇文章和上一篇文章《Fast Semantic Segmentation on Video Using Block Motion-Based Feature Interpolation》都是同一作者,所以你懂的。
流程图如下:
与上一篇文章相比,这篇文章不仅用了关键帧的特征提取,对于非关键帧也使用了特征提取,然后将两个网络的结果进行简单的combine。
框图流程
对于关键帧:直接用deeplab Resnet-101进行语义分割
对于非关键帧:
第一步、先提取前一位关键帧的光流或者运动矢量并进行扭曲后使用N_task分类;
第二步、用轻量级网络deeplab Resnet-18进行语义分割;
第三步、对上两步求出的语义分割结果进行fusion取最终结果。
更多细节在文中有阐述,自行查找。
作者认为这就提高了分割精度,但是代码我还没有跑过,只是瞟了一眼,如果有大佬跑过了该代码的话,分享一下也挺好的 /嘿嘿
这篇关于论文:Accel A Corrective Fusion Network forEfficient Semantic Segmentation on Video的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!