Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习

本文主要是介绍Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Learning Temporal Regularity in Video Sequences

CVPR2016 无监督视频异常事件检测早期工作

摘要

由于对“有意义”的定义不明确以及场景混乱,因此在较长的视频序列中感知有意义的活动是一个具有挑战性的问题。我们通过在非常有限的监督下使用多种来源学习常规运动模式的生成模型(称为规律性)来解决此问题。体来说,我们提出了两种基于自动编码器的方法,以使其能够在很少或没有监督的情况下工作。我们首先利用传统的手工制作的时空局部特征,并在这些特征上学习完全连接的自动编码器。其次,我们构建了一个完全卷积前馈自动编码器来学习局部特征和分类器,作为端到端的学习框架。我们的模型可以从多个数据集中捕捉到规律性。我们从定性和定量两个方面对我们的方法进行了评估,展示了视频在各个方面的学习规律性,并作为应用展示了在异常检测数据集上的竞争性能。

  • 这篇文章的目的:分辨长视频序列中事件的含义。以异常检测数据集为例。
  • 贡献:
  1. 表明自动编码器可以有效地学习长时间视频中的规则动态,并可用于识别视频中的不规则。
  2. 使用全卷积自编码器学习我们提出的方法的低水平运动特征。
  3. 将该模型应用于各种应用,包括学习时间规律,检测与不规则运动相关的物体,过去和未来的帧预测,以及异常事件检测。
  • 背景:目前对视频序列中有意义的事件定义还比较模糊,在有限监督或许无监督情况下有效的识别有意义的活动是一个有挑战的工作。
  • 结果:我们的模型可以从多个数据集中捕捉到规律性。我们从定性和定量两个方面对我们的方法进行了评估,展示了视频在各个方面的学习规律性,并作为应用展示了在异常检测数据集上的竞争性能。
  • 方法 :模型核心是利用当前最好的手工特征将一小段视频手动抽取特征,然后在利用自动编码器得到重构误差,误差就作为规则打分。

I.Introduction

大量不受控制的视频的可获得性带来了长时间观看无意义场景的问题[1]。在没有监督或监督非常有限的情况下自动分割这类视频中的“有意义的”时刻是各种计算机视觉应用的基本问题,例如视频标注[2]、摘要[3,4]、索引或时间分割[5]、异常检测[6]和活动识别[7]。我们通过对有限监督的视频的时间规律性进行建模来解决这个问题,而不是以有监督的方式对稀疏的不规则或有意义的时刻进行建模。学习有意义或显著时刻的时间视觉特征是非常具有挑战性的,因为这种时刻的定义是模糊的,即,视觉上没有界限。另一方面,学习普通时刻的时间视觉特征相对容易,因为它们通常表现出时间规律的动力学,例如周期性的人群运动.。我们专注于学习在有限标记下事件规则的模式。我们假设培训视频中的所有事件都是常规模式的一部分。特别地,我们使用多个视频源(例如,不同的数据集)来学习单个模型中视频的规则时间外观变化模式,然后该模式可以用于多个视频。仅给定常规视频的训练数据,学习常规场景的时间动态是一个无监督的学习问题。这种无监督建模的最先进方法包括稀疏编码和单词包的组合[8–10]。然而,词袋并不保留词的时空结构,并且需要关于词的数量的先验信息。此外,针对训练和测试的稀疏编码所涉及的优化在计算上非常昂贵,尤其是对于视频等大数据。

这个图表示的意思是不规则事件发生时,y轴得分变低,图中是出现踩草坪。

我们提出了一种基于自动编码器的方法。它的目标函数在计算上比稀疏编码更有效,并且它在编码动态时保留了时空信息。所学习的自动编码器以低误差重构规则运动,但是对于不规则运动会引起较高的重构误差。重建误差已被广泛用于异常事件检测[6],因为它是帧视觉统计的函数,并且异常表现为与正常视觉模式的偏差。 Figure 1 shows an example of learned regularity, which is computed from the reconstruction error by a learned model (Eq.3 and Eq.4).

我们提出基于以下两种类型的特征来学习时间规律的自动编码器。首先,我们使用最先进的手工制作的运动特征,学习一个基于神经网络的深度自动编码器,由七个完全连接的层组成。然而,最先进的运动特征对于学习时间规律来说可能是次优的,因为它们不是为这个问题设计或优化的。随后,我们使用基于全卷积神经网络的自编码器直接学习运动特征和判别式规则模式。

们使用多个数据集训练我们的模型,包括中大大道[8]、地铁(进入和出口)[11]和UCSD行人数据集(Ped1和Ped2)[12],而不补偿数据集偏差[13]。因此,学习到的模型可以在数据集上泛化。我们展示了我们的方法在不同的应用中发现时间规则的视频外观变化模式——综合视频中最规则的帧,描绘涉及不规则运动的物体,并从单一帧中预测过去和未来的规则运动。我们的模型也可以在多个数据集(包括最近发布的公共数据集)上执行最先进的异常检测任务。我们的贡献总结如下:

  • 表明自动编码器可以有效地学习长时间视频中的规则动态,并可用于识别视频中的不规则。
  • 使用全卷积自编码器学习我们提出的方法的低水平运动特征。
  • 将该模型应用于各种应用,包括学习时间规律,检测与不规则运动相关的物体,过去和未来的帧预测,以及异常事件检测。

模型核心是利用当前最好的手工特征将一小段视频手动抽取特征,然后在利用自动编码器得到重构误差,误差就作为规则打分。

输入输出都是手工特征

详细的模型结构

T的调参,T代表一次输入的帧数。输入帧数越多,越能准确的找到不规则。

各个数据集上的训练loss变化

效果展示,性能对比,虽然不是最好的,但是也还可以。

5.结论

提出了一种在有限监督下利用自动编码器学习规则模式的方法。我们首先利用传统的时空局部特征,学习一种完全连接的自动编码器。然后,我们构建了一个完全卷积的自动编码器,在一个学习框架中同时学习局部特征和分类器。即使存在潜在的数据集偏差,我们的模型也可以在多个数据集上推广。我们通过多种方式分析我们学习到的模型,比如以帧和像素为单位可视化规律性,以及在只有一张图像的情况下预测过去和未来的常规视频。对于定量分析,我们证明了我们的方法的性能优于最先进的异常检测方法。

这篇关于Learning Temporal Regularity in Video Sequences——视频序列的时间规则性学习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1141554

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

服务器集群同步时间手记

1.时间服务器配置(必须root用户) (1)检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 (2)修改ntp配置文件 [r

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

uva 10131 最长子序列

题意: 给大象的体重和智商,求体重按从大到小,智商从高到低的最长子序列,并输出路径。 代码: #include <iostream>#include <cstdio>#include <cstdlib>#include <algorithm>#include <cstring>#include <cmath>#include <stack>#include <vect