2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用

本文主要是介绍2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

A Temporal Fusion Approach for Video Classification with Convolutional and LSTM Neural Networks Applied to Violence Detection

通过读该文章,想起之前复现的一个代码,与本文不同的是,代码采用帧率从视频片段中截取图片,视频的帧率都是25,也就是1s提取25张图片,这样会有很多重复帧,本文采用的是1s提取2帧,代码采用的是文章中提到的早期融合(Early Fusion),把40帧串联起来送入模型中提取空间特征,这样会影响之后LSTM层提取时间特征,本文采用的是慢融合,也就是10帧分别放入CNN模型中提取空间特征后,再放入LSTM层中提取时间特征。本文对提取空间特征的模型也进行了测试,结果表明MobileN模型性能更好一些,代码采用的是ResNet152模型。接下来想尝试改一下之前复现的代码。

作者采用的数据集为RealLife violence detection,由2000个平均时长为5s的片段组成,分为暴力和非暴力。作者认为单独分析这些帧从静态图像检测暴力行为是困难的,但是当按顺序分析这些帧时,区分每一类的特征就容易一些,因此作者使用了深度学习分析帧。
作者使用了交叉验证技术,K=10,意味着数据被分为10个相等的部分,其中一部分当做验证集,其他部分用作训练集,重复10次,也就是说每个部分都要用来当做验证集一次。

时间融合方法

Late Fusion:使用每个例子的第一帧和最后一帧,由模型单独处理,该技术通过对帧间时间距离最长的帧特征进行处理,即划分场景的序列和结尾,称为延迟融合。
在这里插入图片描述
Early Fusion:使用每个例子的连续帧进行处理,数据的合并发生在被处理之前。
在这里插入图片描述
Slow Fusion:通过模型分别处理每个帧,然后以相关方式处理模型,由于经过一定的处理后,多个帧之间有了时间关联而被称为慢融合。
在这里插入图片描述
这些方法只适用于帧数不多的情况,作者使用每秒2帧,每个视频也就是10帧。如果帧的持续时间与平均持续时间不同,则将它们从与时间相关的的等距帧中移除。

将输入属性传递到卷积层,进行帧的空间特征提取,接着传到LSTM层提取时间特征,最后利用感知器神经元的前馈层分类。如下图
在这里插入图片描述

神经网络结构

在这里插入图片描述
在这里插入图片描述

实验

late fusion:VGG16模型性能最好
在这里插入图片描述
Early Fusion:10帧串联起来给模型,因为串联是在CNN提取空间特征之前进行的,所以在LSTM层提取时间特征会有一定的损失。MobileNet为最佳模型
在这里插入图片描述
slow fusion:慢融合呈现最大数量的单个空间特征提取,有助于LSTM层从卷积块的输入数据中提取时间特征。MobileNet性能最好。
在这里插入图片描述

这篇关于2021-基于卷积和LSTM神经网络的视频分类时间融合方法在暴力检测中的应用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/439026

相关文章

服务器集群同步时间手记

1.时间服务器配置(必须root用户) (1)检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 (2)修改ntp配置文件 [r

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

hdu1394(线段树点更新的应用)

题意:求一个序列经过一定的操作得到的序列的最小逆序数 这题会用到逆序数的一个性质,在0到n-1这些数字组成的乱序排列,将第一个数字A移到最后一位,得到的逆序数为res-a+(n-a-1) 知道上面的知识点后,可以用暴力来解 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#in

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

zoj3820(树的直径的应用)

题意:在一颗树上找两个点,使得所有点到选择与其更近的一个点的距离的最大值最小。 思路:如果是选择一个点的话,那么点就是直径的中点。现在考虑两个点的情况,先求树的直径,再把直径最中间的边去掉,再求剩下的两个子树中直径的中点。 代码如下: #include <stdio.h>#include <string.h>#include <algorithm>#include <map>#

浅谈主机加固,六种有效的主机加固方法

在数字化时代,数据的价值不言而喻,但随之而来的安全威胁也日益严峻。从勒索病毒到内部泄露,企业的数据安全面临着前所未有的挑战。为了应对这些挑战,一种全新的主机加固解决方案应运而生。 MCK主机加固解决方案,采用先进的安全容器中间件技术,构建起一套内核级的纵深立体防护体系。这一体系突破了传统安全防护的局限,即使在管理员权限被恶意利用的情况下,也能确保服务器的安全稳定运行。 普适主机加固措施:

webm怎么转换成mp4?这几种方法超多人在用!

webm怎么转换成mp4?WebM作为一种新兴的视频编码格式,近年来逐渐进入大众视野,其背后承载着诸多优势,但同时也伴随着不容忽视的局限性,首要挑战在于其兼容性边界,尽管WebM已广泛适应于众多网站与软件平台,但在特定应用环境或老旧设备上,其兼容难题依旧凸显,为用户体验带来不便,再者,WebM格式的非普适性也体现在编辑流程上,由于它并非行业内的通用标准,编辑过程中可能会遭遇格式不兼容的障碍,导致操