【VIS】Video Instance Segmentation

2023-10-08 22:49

本文主要是介绍【VIS】Video Instance Segmentation,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Yang_Video_Instance_Segmentation_ICCV_2019_paper.pdf

代码地址:https://github.com/ youtubevos/MaskTrackRCNN
新数据集:YouTube-VIS,地址:https:// youtube-vos.org/dataset/vis

字节跳动的大佬又开辟了新的task:Video Instance Segmentation,但今天看到已经算晚的了,2019年都已经办过比赛了。今天读一读这篇论文。

按照作者的定义,VIS是一个 aims at simultaneous detection, segmentation and tracking of object instances in videos.可算是把所有能用的方法都融合的很难的task了。

Problem Definition

这个任务的目标就是,把视频帧的每一个实例分割出来。与VOS不同的是,VOS不需要知道分割前景的label,VIS不仅要连续追踪,分割,而且要做到实例分割,那么就有一个难点:有的实例不是第一帧会出现的,这是与VOS不同的。

Evaluation Metrics

作者借用了实例分割使用的AP和AR两个指标,迁移到本任务里。

AP is defined as the area under the precision-recall curve. The confidence score is used to plot the curve. AP is averaged over multiple intersection-over-union (IoU) thresholds.

AR is defined as the maximum recall given some fixed number of segmented instances per video.

但是本任务IOU计算和image instance segmentation不同,计算如下,T为某一个视频的总帧数,m是binary segmentation mask.

也就是说,第一帧的时候,后面的都为0,只算第一帧的IOU,第二帧的时候,算第一帧和第二帧,其他为0,以此类推。

作者任务可以达到If the algorithm detects object masks successfully, but fails to track the objects across frames, it will get a low IoU这样的效果。

MaskTrack R-CNN

介绍一下论文作者用的网络,简单来说就是Mask-RCNN再加一个分支叫“Track Head”。

整个网络也是two-stage的,first stage就是对每一帧都产生各自的一系列object Bbox。

在Bbox Head 和 Mask Head 计算的同时,加一个 Track Head(2个全连接层),用于对每一个候选框分配一个instance label。

假设已经计算出了前一帧有N个instance,那么当前帧的候选框所属的label要么属于这N个,要么属于一个新的label。所以把这个当作N+1的分类问题,可以计算一个label n被分配给候选框i的概率:

这是一个多项式逻辑回归。可以看出,在算fi和fn的内积,那么问题来了,fn,fj,j∈[1,N]是哪来的?

其中fi是输入Track Head的当前帧的RoI Align的feature,而其他是前一帧存下来的feature(Memory)。

这里用一个CE Loss来约束Track Head,,y_i是对应实例label。

如果当前帧的候选框i对应的label属于前一帧的N个实例中的一个,那么Memory里的feature会更新;如果是一个新的label,那么Memory里也会添加一个新的feature。

训练的时候,随机挑选一对frames,一个做reference,一个做query。对reference只提取GT里instance region里的feature存到memory里,query frame会先在first stage里选出positive candidate bbox,在对它分配label。作者选择IOU 和GT bbox overlap超过0.7的做为positive。

整个网络的LOSS是: 

但最后,所有cues整合,才能确认最终的对应的instance的分割,也即分配给每个bbox的label的score如下,本文是做一个后处理:

p_i是刚才的概率,s_i是置信度,b_i是bbox,c_i是class。这个方程只在测试时应用,不对训练做贡献。

作者发现,IOU和class consistency比较重要。而置信度只是轻微提升效果。

值得一提的是,Track Head只训了20个epoch,整个网络的处理速度是20fps。

指标的话好像没有那么强,现在看VIS数据集的比赛最高已经mAP0.446 了,哎,大神们动手都太快了。

2020年01月09日

这篇关于【VIS】Video Instance Segmentation的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/168517

相关文章

FFplay源码分析-video_thread

《FFmpeg原理》的社群来了,想加入社群的朋友请购买 VIP 版,VIP 版有更高级的内容与答疑服务。 本系列 以 ffmpeg4.2 源码为准,下载地址:链接:百度网盘 提取码:g3k8 FFplay 源码分析系列以一条简单的命令开始,ffplay -i a.mp4。a.mp4下载链接:百度网盘,提取码:nl0s 。 上一篇文章已经讲解完了 audio_thread() 音频解码

U-Net for Image Segmentation

1.Unet for Image Segmentation 笔记来源:使用Pytorch搭建U-Net网络并基于DRIVE数据集训练(语义分割) 1.1 DoubleConv (Conv2d+BatchNorm2d+ReLU) import torchimport torch.nn as nnimport torch.nn.functional as F# nn.Sequential

Splash of Color: Instance Segmentation with Mask R-CNN and TensorFlow

喷色:使用Mask R-CNN和TensorFlow进行实例分割 原文:Splash of Color: Instance Segmentation with Mask R-CNN and TensorFlow 原作者:Waleed Abdulla 0 概述 早在11月,我们就将Mask R-CNN的实现开源了,此后,它被forked了1400次,在许多项目中使用,并得到了许多贡献者的改进。

ffmpeg+nginx+video实现rtsp流转hls流,web页面播放

项目场景: 最近调试海康摄像头需要将rtsp流在html页面播放,因为不想去折腾推拉流,所以我选择ffmpeg转hls流,nginx转发,html直接访问就好了 1.首先要下载nginx和ffmpeg 附上下载地址: nginx nginx news ffmpeg https://github.com/BtbN/FFmpeg-Builds/releases ffmpeg解压后 需配置环

Polyp-DDPM: Diffusion-Based Semantic Polyp Synthesis for Enhanced Segmentation

Polyp- ddpm:基于扩散的语义Polyp合成增强分割 摘要: 本研究介绍了一种基于扩散的方法Polyp-DDPM,该方法用于生成假面条件下息肉的逼真图像,旨在增强胃肠道息肉的分割。我们的方法解决了与医学图像相关的数据限制、高注释成本和隐私问题的挑战。通过对分割掩模(代表异常区域的二进制掩模)的扩散模型进行调节,poly - ddpm在图像质量(实现fr起始距离(FID)得分为78.47

【C语言】解决C语言报错:Segmentation Fault

文章目录 简介什么是Segmentation FaultSegmentation Fault的常见原因如何检测和调试Segmentation Fault解决Segmentation Fault的最佳实践详细实例解析示例1:未初始化指针示例2:数组越界示例3:使用已释放的内存示例4:递归导致栈溢出 进一步阅读和参考资料总结 简介 Segmentation Fault(段

【漏洞复现】极限OA video_file.php 任意文件读取漏洞

免责声明:         本文内容旨在提供有关特定漏洞或安全漏洞的信息,以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步,并非出于任何恶意目的。阅读者应该明白,在利用本文提到的漏洞信息或进行相关测试时,可能会违反某些法律法规或服务协议。同时,未经授权地访问系统、网络或应用程序可能导致法律责任或其他严重后果。作者不对读者基于本文内容而产生的任何行为或后果承担

用群辉NAS打造影视墙(Video Station篇)

目录 一、群辉套件Video Station 1、安装 2、进入系统 3、配置刮削器 4、获取TMDB网站API密钥 5、配置DNS (1)开启SSH (2)使用终端工具连接到NAS (3)修改hosts文件 (4)再次测试连接 6、设置目录 二、手机端APP设置 三、电视端APP 四、解决影视信息错误 NAS中保存大量影视资源,如何方便读取放映,操作简洁明快

论文阅读--Cross-view Transformers for real-time Map-view Semantic Segmentation

一种新的2D维度的bev特征提取方案,其通过引入相机先验信息(相机内参和外参)构建了一个多视图交叉注意力机制,能够将多视图特征映射为BEV特征。 cross view attention:BEV位置编码+由根据相机标定结果(内参和外参)演算得到的相机位置编码+多视图特征做attention得到 整体上文章的网络前端使用CNN作为特征抽取网络,中端使用CNN多级特征作为输入在多视图下优化BEV特

实时语义分割--ICNet for Real-Time Semantic Segmentation on High-Resolution Images

github代码:https://github.com/hszhao/ICNet 语义分割算法精度和速度对比: 由图可以看出,ResNet38,PSPNet,DUC精度虽然较高,但是无法速度相对较慢,无法达到实时,ENet速度较快,但精度较低,而本文算法既可以达到实时,精度也相对较高. Speed Analysis PSPNet50的处理不同大小的输入图像所需时间: 图中,sta