干货 | 视频显著性目标检测(文末附有完整源码)

2023-12-26 06:20

本文主要是介绍干货 | 视频显著性目标检测(文末附有完整源码),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=png

显著性检测近年来引起了广泛的研究兴趣。这种日益流行的原因在于在各种视觉任务(如图像分割、目标检测、视频摘要和压缩等)中有效地使用了这些模型。显著性模型大致可分为两类:人眼注视预测显著目标检测。根据输入类型,可进一步分为静态显著性模型和动态显著性模型。

背  景

将CNN应用于视频显著性的第一个问题是缺乏足够大、标记密集的视频训练数据。据我所知,CNN在计算机视觉方面的成功在很大程度上归功于大规模标注图像的可用性。然而,现有的视频数据集太小,无法为CNN提供足够的训练数据。

640?wx_fmt=png

[9] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang,A. Karpathy, A. Khosla, M. Bernstein et al., “Imagenet large scale visual recognition challenge,” International Journal of Computer Vision, vol.115, no. 3, pp. 211–252, 2015.
[10] T. Brox and J. Malik, “Object segmentation by long term analysis of point trajectories,” in European Conference on Computer Vision, 2010, pp. 282–295.
[11] F. Li, T. Kim, A. Humayun, D. Tsai, and J. M. Rehg, “Video segmentation by tracking many figure-ground segments,” in IEEE International Conference on Computer Vision, 2013, pp. 2192–2199.
[12] F. Galasso, N. Shankar Nagaraja, T. Jimenez Cardenas, T. Brox, and B. Schiele, “A unified video segmentation benchmark: Annotation, metrics and analysis,” in IEEE International Conference on Computer Vision, 2013, pp. 3527–3534.
[13] F. Perazzi, J. Pont-Tuset, B. McWilliams, L. V. Gool, M. Gross, and A. Sorkine-Hornung, “A benchmark dataset and evaluation methodology for video object segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition, 2016.

在上表中,列出了ImageNet数据集的统计数据和广泛采用的视频目标分割数据集,包括FBMS、SegTrackV 2、VSB 100和Davis。

可以看到,现有的视频数据集在质量和数量上都很少与现有的图像数据集(如ImageNet)相匹配。另外,考虑到同一视频片段帧间的高度相关性,现有的视频数据集远远不能满足像视频显著目标检测等像素级视频应用的CNN训练需求。另一方面,就目前而言,创建如此大规模的视频数据集通常是不可行的,因为注释视频既复杂又耗时。

为此就提出了一种综合生成标记视频训练数据的视频数据增强方法,该方法充分利用了现有的大规模图像分割数据集。模拟视频数据易于获取和快速生成,接近真实视频序列,呈现各种运动模式、变形,伴随着自动生成的注解和光流。通过这些自动生成的视频的实验结果,很好地证明了新策略的实用性。

摘 要 & 概 述

为了有效地检测视频中的显著区域,提出了一种深度学习模型。它解决了两个重要的问题:(1)深度视频显著性模型训练,缺乏足够大的像素标注视频数据;(2)快速视频显著性训练和检测。

提出的深度视频显著性网络由两个模块组成,分别用于捕获视频的时空显著性信息。动态显著性模型显式地结合了静态显著性模型中的显著性估计,直接产生时空显著性推理,而不需要耗时的光流计算。进一步提出了一种新的数据增强技术,它模拟现有带注释的图像数据集中的视频训练数据,使新的网络能够学习不同的显著性信息,并防止与有限数量的训练视频过度匹配。利用合成视频数据(150K视频序列)和真实视频,新提出的深度视频显著性模型成功地学习了时空显著性线索,从而产生了准确的时空显著性估计。

相 关 工 作

640?wx_fmt=png 1、显著性检测

显著性检测在计算机视觉中得到了广泛的研究,其显着性模型一般可分为视觉注意预测或显著目标检测。前几种方法:

  • L. Itti, C. Koch, E. Niebur et al., “A model of saliency-based visual attention for rapid scene analysis,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 20, no. 11, pp. 1254–1259, 1998.

  • J. Harel, C. Koch, and P. Perona, “Graph-based visual saliency,” in Advances in Neural Information Processing Systems, 2006, pp. 545–552.

  • T. Judd, K. Ehinger, F. Durand, and A. Torralba, “Learning to predict where humans look,” in IEEE International Conference on Computer Vision, 2009, pp. 2106–2113.

以上试图预测人类观察者可能注视的场景位置。显著目标检测旨在统一突出区域,这已被证明有利于广泛的计算机视觉应用。对显著性模型的更详细审查见:

  • A. Borji and L. Itti, “State-of-the-art in visual attention modeling,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 1, pp. 185–207, 2013.

  • A. Borji, M.-M. Cheng, H. Jiang, and J. Li, “Salient object detection: A benchmark,” IEEE Transactions on Image Processing, vol. 24, no. 12, pp. 5706–5722, 2015.

根据显著性模型的输入,将显著性模型进一步分为静态模型和动态模型。在本次讲解中中,我们的目标是检测视频中的突出目标区域。图像显著性检测已经被广泛的研究了几十年,大多数的方法都是由众所周知的自下而上的策略驱动的。早期的自下而上模型主要是基于检测对比度,假设视场中的显著区域首先从周围环境中突出出来,然后根据不同的数学原理计算基于特征的对比度。同时,一些其他的机制也提出采用一些先验知识,例如背景先验或全局信息来检测静止图像中的突出物体。

  • Y. Wei, F. Wen, W. Zhu, and J. Sun, “Geodesic saliency using background priors,” in European Conference on Computer Vision, 2012, pp. 29–42.

  • W. Zhu, S. Liang, Y. Wei, and J. Sun, “Saliency optimization from robust background detection,” in IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 2814–2821.

近年来,深度学习技术被引入到图像显著性检测中。这些方法通常使用CNN审查大量区域候选,从中选择突出的对象。目前,越来越多的方法倾向于以端到端的方式学习,并通过全卷积网络(FCNs)直接生成像素级显著性映射。

640?wx_fmt=jpeg

近年来,显著性检测的边界已经扩展到捕获相关图像/视频之间的共同显着性,用视频序列或场景理解推断显着性事件。然而,上述方法与传统的显著性检测方法存在显著差异,特别是考虑到它们的目标和核心困难。

  • W. Wang, J. Shen, X. Li, and F. Porikli, “Robust video object cosegmentation,” IEEE Transactions on Image Processing, vol. 24, no. 10, pp. 3137-3148, 2015.

  • W. Wang, and J. Shen, “Higher-order image co-segmentation,” IEEE Transactions on Multimedia, vol. 18, no. 6, pp. 1011–1021, 2016.

  • D. Zhang, D. Meng, and J. Han, “Co-saliency detection via a self-paced multiple-instance learning framework,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 5, pp. 865–878, 2017.

640?wx_fmt=png 动态场景中的深度学习模型

主要研究动态场景中计算机视觉应用的著名深入学习模型,包括行为识别,目标分割,目标跟踪,注意预测和语义切分,并探讨它们的结构和训练方案。这将有助于澄清新方法与以往的努力有何不同,并将有助于突出效力和效率方面的重要利益。许多方法直接将单个视频帧输入到对图像数据进行训练的神经网络中,并采用各种技术对结果进行时间或运动信息的后处理。

不幸的是,这些神经网络放弃了对时间信息的学习,而时间信息在视频处理应用中往往是非常重要的。(K. Simonyan and A. Zisserman, “Two-stream convolutional networks for action recognition in videos,” in Advances in Neural Information Processing Systems, 2014, pp. 568–576.)提出了一种著名的用于视频中动作识别的CNN训练结构,该结构结合了两个流卷积网络来学习图像和运动的互补信息。其他工作采用这种结构进行动态注意预测和视频对象分割。然而,这些方法在多帧密集光流下训练模型,计算量很大。在人体姿态估计和视频对象处理方面,引入了在线学习策略,以提高人体姿态估计和视频对象处理的性能。在处理输入视频之前,这些方法产生各种训练样本,用于微调从图像数据中学习到的神经网络,从而使模型能够针对测试视频序列中感兴趣的对象进行优化。显然,这些模型很费时,而精调的模型只专门针对特定的对象类。

视频显著性检测

框架概述

640?wx_fmt=png

在下面详细介绍之前,我首先对深度视频显著性模型进行概述。在较高的层次上,将视频帧输入到神经网络中,网络依次输出显著性映射,其中较亮的像素表示更高的显著性值。该网络使用视频序列和图像进行训练,并在一般动态场景中学习时空显著性。

上图显示出了所提出的深度视频显著性模型的结构。在经典的人类视觉感知研究的启发下,即静态显著性线索和动态显著性线索对视频显著性的贡献,设计了两个模块,同时考虑了场景的时空特性。

第一个模块是以单帧图像为输入,捕获静态性。它采用全卷积网络(FCNs)生成像素级显著性估计,并利用以往优秀的预训练模型对大规模图像数据集进行预处理。在丰富的图像显著性基准的推动下,该模块被有效地训练来获取感兴趣对象的各种静态显著性信息。第二模块以来自第一模块的帧对和静态显著性作为输入,生成最终的动态显著性结果。这个网络是从合成的和真实的标记视频数据中训练出来的。

静态显著性深层网络

640?wx_fmt=png

在网络顶部,采用1×1卷积核的卷积层将特征映射y通过sigmoid激活单元映射成精确的显著性预测映射p。对pred使用sigmoid层,以便输出中的每个条目在0和1的范围内有一个实际值。由于FCN的使用,网络允许对任意大小的输入图像进行操作,并保留空间信息。上图说明了深层网络的静态显着性的详细配置。

动态显著性的深层网络

640?wx_fmt=png

现在我们来描述时空显著性网络。如上图所示,该网络与基于FCN的静态显著性网络结构相似,包括多层卷积和反卷积。动态网络与静态显著性结果一起学习动态显著性信息,从而直接生成时空显著性估计。

与某些技术中常用的双流网络结构相比,新技术将静态网络的输出合并为动态显著性模型,直接产生时空显著性结果。这种架构有两个优点。首先,将动态和静态显著性融合显式地嵌入到动态显著性网络中,而不是训练时空特征的双流网络,专门设计了一个时空特征融合网络。其次,该模型利用光流图像对相邻两帧的时间信息进行直接推断,而不是以往的方法,从而获得了较高的计算效率。

实验结果

实验结果可视化

640?wx_fmt=png


640?wx_fmt=png

(a)使用固定阈值分割显著性图,从而获得平均精确ROC曲线;(B)F-score;(C)平均MAE。注意,新技术的算法在不同的度量标准中始终优于其他方法。

640?wx_fmt=png

静态显著性结果与最终时空显著性结果的定性比较。自上而下:输入帧图像,通过静态显著性网络获得显著性结果,通过整个视频显著性模型获得时空显著性结果。

640?wx_fmt=png

新技术的计算负荷和处理480p视频的时间效率与最先进的视频显著性方法比较

640?wx_fmt=png

源码:https://github.com/wenguanwang/ViSalientObject

如果想加入我们“计算机视觉战队”,请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域,由来自于各校的硕博研究生组成的团队,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。

我们开创一段时间的“计算机视觉协会”知识星球,也得到很多同学的认可,我们定时会推送实践型内容与大家分享,在星球里的同学可以随时提问,随时提需求,我们都会及时给予回复及给出对应的答复。

640?wx_fmt=jpeg

微信学习讨论群也可以加入,我们会第一时间在该些群里预告!

640?wx_fmt=jpeg

这篇关于干货 | 视频显著性目标检测(文末附有完整源码)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/538381

相关文章

Java汇编源码如何查看环境搭建

《Java汇编源码如何查看环境搭建》:本文主要介绍如何在IntelliJIDEA开发环境中搭建字节码和汇编环境,以便更好地进行代码调优和JVM学习,首先,介绍了如何配置IntelliJIDEA以方... 目录一、简介二、在IDEA开发环境中搭建汇编环境2.1 在IDEA中搭建字节码查看环境2.1.1 搭建步

mysql重置root密码的完整步骤(适用于5.7和8.0)

《mysql重置root密码的完整步骤(适用于5.7和8.0)》:本文主要介绍mysql重置root密码的完整步骤,文中描述了如何停止MySQL服务、以管理员身份打开命令行、替换配置文件路径、修改... 目录第一步:先停止mysql服务,一定要停止!方式一:通过命令行关闭mysql服务方式二:通过服务项关闭

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

Java ArrayList扩容机制 (源码解读)

结论:初始长度为10,若所需长度小于1.5倍原长度,则按照1.5倍扩容。若不够用则按照所需长度扩容。 一. 明确类内部重要变量含义         1:数组默认长度         2:这是一个共享的空数组实例,用于明确创建长度为0时的ArrayList ,比如通过 new ArrayList<>(0),ArrayList 内部的数组 elementData 会指向这个 EMPTY_EL

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get