论文：Accel A Corrective Fusion Network forEfficient Semantic Segmentation on Video

本文主要是介绍论文：Accel A Corrective Fusion Network forEfficient Semantic Segmentation on Video，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

这是一篇2019CVPR（oral）的文章，也是我几个月前看的，有人说这篇文章有点水，给CVPR颁“金酸莓奖”，知乎网友热议最差论文，战火烧到Reddit论坛，所以我当时也没认真看了。

论文地址：Accel: A Corrective Fusion Network forEfficient Semantic Segmentation on Video
code：https://github.com/SamvitJ/Accel

在这里插入图片描述

Conclusion：Accel是一种快速、高精度视频分割系统,利用组合预测能力的两个网络途径:(1)一个参考分支NR的引用,引用关键帧提取优质特性,这些特性和扭曲提出使用增量光流估计,和(2)一个更新分支NU促进修正当前帧累积的时间错误引用表示。综合实验证明了一系列的精确推理速度模式，从高吞吐量的Accel版本，它比可比的单帧模型更快，更准确，到高精度的版本，它超过了最先进的水平。在所有关键帧间隔上，Accel模型的整体性能始终优于之前的工作，而消融研究表明，相对于单个组件，Accel具有显著的精度提高。最后，Accel体系结构是模块化和端到端可训练的，为如何在视频上高效地执行密集预测任务提供了一个通用的例子。

创新点：Accel模型，引入光流或者运动矢量的概念，提升了分割精度的同时降低了计算量，比较模型为deeplab

这篇文章和上一篇文章《Fast Semantic Segmentation on Video Using Block Motion-Based Feature Interpolation》都是同一作者，所以你懂的。

流程图如下：
在这里插入图片描述
与上一篇文章相比，这篇文章不仅用了关键帧的特征提取，对于非关键帧也使用了特征提取，然后将两个网络的结果进行简单的combine。

在这里插入图片描述
框图流程
       对于关键帧：直接用deeplab Resnet-101进行语义分割
       对于非关键帧：
              第一步、先提取前一位关键帧的光流或者运动矢量并进行扭曲后使用N_task分类；
              第二步、用轻量级网络deeplab Resnet-18进行语义分割；
              第三步、对上两步求出的语义分割结果进行fusion取最终结果。
       更多细节在文中有阐述，自行查找。