论文:Accel A Corrective Fusion Network forEfficient Semantic Segmentation on Video

本文主要是介绍论文:Accel A Corrective Fusion Network forEfficient Semantic Segmentation on Video,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这是一篇2019CVPR(oral)的文章,也是我几个月前看的,有人说这篇文章有点水,给CVPR颁“金酸莓奖”,知乎网友热议最差论文,战火烧到Reddit论坛,所以我当时也没认真看了。

论文地址:Accel: A Corrective Fusion Network forEfficient Semantic Segmentation on Video
code:https://github.com/SamvitJ/Accel

在这里插入图片描述

Conclusion:Accel是一种快速、高精度视频分割系统,利用组合预测能力的两个网络途径:(1)一个参考分支NR的引用,引用关键帧提取优质特性,这些特性和扭曲提出使用增量光流估计,和(2)一个更新分支NU促进修正当前帧累积的时间错误引用表示。综合实验证明了一系列的精确推理速度模式,从高吞吐量的Accel版本,它比可比的单帧模型更快,更准确,到高精度的版本,它超过了最先进的水平。在所有关键帧间隔上,Accel模型的整体性能始终优于之前的工作,而消融研究表明,相对于单个组件,Accel具有显著的精度提高。最后,Accel体系结构是模块化和端到端可训练的,为如何在视频上高效地执行密集预测任务提供了一个通用的例子。

创新点:Accel模型,引入光流或者运动矢量的概念,提升了分割精度的同时降低了计算量,比较模型为deeplab

       这篇文章和上一篇文章《Fast Semantic Segmentation on Video Using Block Motion-Based Feature Interpolation》都是同一作者,所以你懂的。

流程图如下:
在这里插入图片描述
与上一篇文章相比,这篇文章不仅用了关键帧的特征提取,对于非关键帧也使用了特征提取,然后将两个网络的结果进行简单的combine。

在这里插入图片描述
框图流程
       对于关键帧:直接用deeplab Resnet-101进行语义分割
       对于非关键帧:
              第一步、先提取前一位关键帧的光流或者运动矢量并进行扭曲后使用N_task分类;
              第二步、用轻量级网络deeplab Resnet-18进行语义分割;
              第三步、对上两步求出的语义分割结果进行fusion取最终结果。
       更多细节在文中有阐述,自行查找。

在这里插入图片描述

在这里插入图片描述
       作者认为这就提高了分割精度,但是代码我还没有跑过,只是瞟了一眼,如果有大佬跑过了该代码的话,分享一下也挺好的 /嘿嘿

这篇关于论文:Accel A Corrective Fusion Network forEfficient Semantic Segmentation on Video的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/260185

相关文章

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性