Weakly Supervised Audio-Visual Violence Detection 论文阅读

2024-04-17 06:04

本文主要是介绍Weakly Supervised Audio-Visual Violence Detection 论文阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Weakly Supervised Audio-Visual Violence Detection 论文阅读

  • 摘要
  • III. METHODOLOGY
    • A. Multimodal Fusion
    • B. Relation Modeling Module
    • C. Training and Inference
  • IV. EXPERIMENTS
  • V. CONCLUSION
  • 阅读总结

文章信息:

在这里插入图片描述

发表于:IEEE TRANSACTIONS ON MULTIMEDIA 2022

摘要

由于近年来大量视频的涌现,视频中的暴力检测在实际应用中非常有前景。大多数以前的工作将暴力检测定义为简单的视频分类任务,并使用小规模数据集的单模态,例如,视觉信号。然而,这样的解决方案供给不足。为了缓解这个问题,我们研究了大规模音视频暴力数据上的弱监督暴力检测,并首次引入了两个互补的任务,即粗粒度暴力帧检测和细粒度暴力事件检测,将简单的暴力视频分类推进到帧级别的暴力事件定位,旨在准确地定位未经修剪的视频中的暴力事件。然后,我们提出了一种新颖的网络,将音视频数据作为输入,并包含三个并行分支来捕获视频片段之间的不同关系,并进一步集成特征,其中相似性分支和接近性分支分别使用相似性先验和接近性先验捕获长程依赖关系,评分分支动态捕获预测分数的接近程度。在粗粒度和细粒度任务中,我们的方法在两个公开数据集上均优于其他最先进的方法。此外,实验结果还显示了音视频输入和关系建模的积极效果。

III. METHODOLOGY

在本节中,我们首先介绍多模态融合以生成音视频融合特征(第III-A节),然后将融合特征输入到以下模型中以捕捉三种不同的关系(第III-B节)。接下来,我们介绍了用于训练和推断过程的客观函数(第III-C节)。最后,我们展示了我们模型的时间空间复杂性(第III-D节)。我们提出的方法总结在图1中。

在这里插入图片描述

图1. 我们提出方法的流程图。给定一个视频和相应的音频,首先使用特征提取器提取视觉和音频特征。然后将这些不同模态的特征融合以生成片段特征。RM 模块用于建模片段之间的三种不同关系,可用于离线检测,而在线检测器则用于在线检测,可以在没有未来内容的情况下检测暴力行为。我们的方法很灵活,因为它可以同时应用于粗粒度和细粒度的暴力检测任务。

A. Multimodal Fusion

考虑到我们有一个未修剪的视频 v v v 和相应的标签 y B y^B yB y y y,其中 y B ∈ { 0 , 1 } , y B = 1 y^B{\in}\{0,1\},y^B=1 yB{0,1},yB=1 表示 v v v 包含了暴力事件,而 y = { 0 , 1 } i = 1 M + 1 , M y=\{0,1\}_{i=1}^{M+1},M y={0,1}i=1M+1,M 是暴力类别的数量。我们使用现成的预训练网络作为特征提取器 F V F^V FV F A F^A FA,并通过滑动窗口机制提取视觉和音频特征矩阵 X V X^V XV X A X^A XA,其中 X V ∈ R T × d V X^V\in\mathbb{R}^{T\times d^V} XVRT×dV X A ∈ R T × d A X^A\in\mathbb{R}^{T\times d^A} XART×dA x i V ∈ R d V x_i^V\in\mathbb{R}^{d^V} xiVRdV x i A ∈ R d A x_i^A\in\mathbb{R}^{d^A} xiARdA 分别表示第 i i i 个片段的视觉和音频特征。 T T T 是视频 v v v 的长度, d V d^V dV d A d^A dA 分别是视觉和音频特征的维度。

然后我们将视觉和音频特征连接起来生成融合特征。更具体地说,我们首先将 X V X^V XV X A X^A XA 在通道上堆叠,然后将堆叠的特征送入两个堆叠的全连接(FC)层,每个层都有512和128个神经元。每个FC层后跟ReLU激活函数和dropout。我们得到融合特征,表示为 X F X^F XF,它是两个堆叠FC层的最终输出。

B. Relation Modeling Module

我们首先回顾神经网络中的长程依赖建模[28],它可以用公式表示如下:

在这里插入图片描述
与常规的卷积层的主要区别在于聚合操作,它汇总来自全局范围(长程依赖)而不是局部区域的信息。

相似度分支的实现:我们通过特征相似性先验设计了相似性关系矩阵,从视频理解的GCN中获得启发。相似性关系如下所示:
在这里插入图片描述
其中, A s ∈ R T × T A^s\in\mathbb{R}^{T\times T} AsRT×T A i j S A_{ij}^S AijS衡量第 i i i个和第 j j j个特征之间的特征相似度。 值得注意的是,在公式(2)中,大小为 T × ( d V + d A ) T{\times}(d^V{+}d^A) T×(dV+dA) X X X表示原始特征的串联,以利用原始的先验知识。 g g g是归一化函数,函数 f f f用于计算一对特征的余弦相似度,其定义如下:
在这里插入图片描述
在公式(3)中的相似性被限制在(0, 1]的范围内,然后使用阈值机制来过滤掉更不相似的成对弱关系,并加强更相似成对的关系。阈值机制如下所示:
在这里插入图片描述
其中τ是阈值,其位于0和1之间。

之后,使用归一化函数 g g g来确保A的每行之和为1,这里我们采用softmax作为 g g g,如图所示:
在这里插入图片描述
遵循GCN范例,我们如下引入相似性层,
在这里插入图片描述
这样的操作旨在基于全局范围内特征的加权和来计算位置响应,而不是基于局部邻居。W是用于转换特征空间的可学习权重。

接近性分支的实现:虽然相似性分支可以捕捉长程依赖性,但它直接计算任意两个位置之间的相似性,并忽视了位置距离。位置信息在视频中也起着至关重要的作用,例如,时间事件检测。在这项工作中,我们在接近性先验之上设计了另一个关系矩阵,如下所示:
在这里插入图片描述
这里第 i i i个和第 j j j个特征之间的接近性关系仅与它们相对时间位置有关,其中 γ \gamma γ π \pi π是超参数,用于控制距离关系的影响范围。这样的设置确保了位置越接近,关系越高;否则,关系越小。

类似地,邻近层如下所示,
在这里插入图片描述
评分分支的实现:如上所述,用于暴力检测的前瞻性算法旨在进行离线检测,例如,互联网录像机,以及在线检测,例如,监控系统。然而,以上 RM 模块的在线检测受到一个主要障碍的阻碍:RM 模块通过整个视频获取长程依赖性。为了解决这一困境,我们提出了一个在线检测器,它将先前的视频片段作为输入,而不是整个视频,以在 RM 模块的指导下生成粗粒度和细粒度的预测。具体来说,两个堆叠的全连接(FC)层后跟 ReLU 和两个并行分类器构成了在线检测器。一个分类器是在线粗粒度分类器,即,一个具有时间上大小为5的卷积核,步长为1,填充为4的因果卷积层,在时间上滑动卷积滤波器。该分类器的输出是形状为 T T T 的粗粒度暴力激活,表示为 C O C C^{OC} COC。另一个分类器是在线细粒度分类器,它包括两个 1D 卷积层。第一层是一个因果层,卷积核大小为5,然后是 ReLU,第二层将特征投影到 M + 1 M+1 M+1 维空间,以获得细粒度暴力激活,表示为 C O F C^{OF} COF

这个操作引入了一个额外的分支,称为评分分支,它依赖于 C O C C^{OC} COC。评分分支旨在计算一个位置响应,作为所有位置特征的加权和,其中权重依赖于预测分数 C O C C^{OC} COC 的接近程度。与相似性和接近性分支的关系矩阵不同,评分分支的关系矩阵在每次迭代中动态更新。具体来说,评分分支的关系矩阵设计如下:
在这里插入图片描述
其中, s s s 是 Sigmoid 函数, ρ \rho ρ 是 Sigmoid 的一种变体,其作用是基于预测分数的接近程度来转换成对关系。如果一对之间的分数接近(在本文中,0.5 是预定义的阈值),则增加这对之间的关系;否则,减少。Softmax 也用于归一化。

类似地,评分层如下所示:
在这里插入图片描述
其中 X 0 O ( = X 0 S = X 0 P ) = X F \begin{aligned}X_0^O(=X_0^S=X_0^P)=X^F\end{aligned} X0O(=X0S=X0P)=XF

C. Training and Inference

我们设计了两个类似于在线检测器的并行分类器,将特征映射到两个不同的空间。具体来说,我们简单地使用一个 FC 层作为粗粒度分类器,将串联表示投影到类别空间,其中这个 FC 层的输出大小为 1。粗粒度的暴力激活 C C ∈ R T C^C{\in}\mathbb{R}^T CCRT 可以表示如下:
在这里插入图片描述
其中 ∥ \| 表示连接操作。类似地,我们引入了细粒度分类器,它将串联表示投影到 M + 1 M+1 M+1 维空间。细粒度的暴力激活可以表示如下:

在这里插入图片描述
由于我们只有视频级别的真实标签,我们需要获得视频级别的预测。在此之后,计算视频级别预测和真实标签之间的差异。遵循 MIL [6],[38] 的原则,我们使用时间维度上的 Top-K 激活的平均值而不是整个激活来计算粗粒度置信度 p O C , p C p^{OC},p^C pOC,pC 和细粒度置信度 p O F , p F p^{OF},p^F pOF,pF。具体地,预测的置信度可以计算如下:
在这里插入图片描述
其中 C m a x C^{max} Cmax 是前 K K K 大的激活值,而 K K K 的定义如下:
在这里插入图片描述
粗粒度分类损失是预测的粗粒度置信度 p C ( o r O C ) p^{C(orOC)} pC(orOC) 和真实标签 y B y^{B} yB 之间的二元交叉熵,如下所示:
在这里插入图片描述
细粒度分类损失是基于交叉熵的,我们首先使用softmax得到概率质量函数,定义如下:
在这里插入图片描述
那么,细粒度分类定义为:
在这里插入图片描述
由于一个视频可能包含多个暴力事件,因此我们在这里对 y 进行 L1 归一化得到 y ˉ \bar{y} yˉ。此外,还利用知识蒸馏损失来鼓励在线检测器的输出逼近 RM 模块的输出,具体如下所示:

在这里插入图片描述
其中函数σ为softmax。最后,将上述损失加起来计算总损失,如下所示:
在这里插入图片描述
推断:对于粗粒度暴力帧检测,我们使用 Sigmoid 函数对粗粒度暴力激活 C C C^C CC C O C C^{OC} COC 进行归一化,并计算离线和在线粗粒度暴力置信度,限制在 [0,1] 的范围内,因为我们的模型可以选择离线或在线方式来检测暴力事件,以满足不同的需求。值得注意的是,在在线推断中,RM 模块被移除,只有在线检测器起作用。对于细粒度暴力事件检测,我们遵循之前的工作[39],使用阈值策略来预测暴力事件。在测试时给定一个暴力视频,我们首先丢弃细粒度置信度低于某个阈值(本文中使用0.0)的暴力类别。然后,对于剩余的每个类别,我们沿着时间轴应用一个阈值来获取暴力片段。预测的暴力片段的得分是其最高帧激活和相应类别激活的加权和。

IV. EXPERIMENTS

在这里插入图片描述

V. CONCLUSION

在本文中,我们研究了大规模暴力数据上的弱监督音视频暴力检测。我们引入了两个互补的任务,一个是粗粒度暴力帧检测,重点是在帧级别上区分,另一个是细粒度暴力事件检测,考虑了预测的暴力事件的类别和连续性。然后,我们提出了一种通用方法,明确地建模了视频片段之间的关系,并学习了强大的音视频表示。大量实验证明,

  1. 多模态显著提高了性能;
  2. 明确地利用关系非常有效;
  3. 我们的方法在两个不同的任务上表现良好,而且多任务学习在我们的方法中是有效的。

阅读总结

这篇文章的Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision 拓展工作。

主要是增加了一个细粒度的分支。
两篇文章在XD-Violence上的结果都是一样的吗?
左边是这篇文章的,右边是之前的那篇文章。

在这里插入图片描述
怎么说网络和损失都是变化了一些的。

这篇关于Weakly Supervised Audio-Visual Violence Detection 论文阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/910976

相关文章

Visual Studio中,MSBUild版本问题

假如项目规定了MSBUild版本,那么在安装完Visual Studio后,假如带的MSBUild版本与项目要求的版本不符合要求,那么可以把需要的MSBUild添加到系统中,然后即可使用。步骤如下:            假如项目需要使用V12的MSBUild,而安装的Visual Studio带的MSBUild版本为V14。 ①到MSDN下载V12 MSBUild包,把V12包解压到目录(

ssh在本地虚拟机中的应用——解决虚拟机中编写和阅读代码不方便问题的一个小技巧

虚拟机中编程小技巧分享——ssh的使用 事情的起因是这样的:前几天一位工程师过来我这边,他看到我在主机和虚拟机运行了两个vscode环境,不经意间提了句:“这么艰苦的环境写代码啊”。 后来我一想:确实。 我长时间以来都是直接在虚拟机里写的代码,但是毕竟是虚拟机嘛,有时候编辑器没那么流畅,在文件比较多的时候跳转很麻烦,容易卡住。因此,我当晚简单思考了一下,想到了一个可行的解决方法——即用ssh

康奈尔大学之论文审稿模型Reviewer2及我司七月对其的实现(含PeerRead)

前言 自从我司于23年7月开始涉足论文审稿领域之后「截止到24年6月份,我司的七月论文审稿GPT已经迭代到了第五版,详见此文的8.1 七月论文审稿GPT(从第1版到第5版)」,在业界的影响力越来越大,所以身边朋友如发现业界有相似的工作,一般都会第一时间发给我,比如本部分要介绍的康奈尔大学的reviewer2 当然,我自己也会各种看类似工作的论文,毕竟同行之间的工作一定会互相借鉴的,我们会学他们

芯片后端之 PT 使用 report_timing 产生报告如何阅读

今天,就PT常用的命令,做一个介绍,希望对大家以后的工作,起到帮助作用。 在PrimeTime中,使用report_timing -delay max命令生成此报告。switch -delay max表示定时报告用于设置(这是默认值)。 首先,我们整体看一下通过report_timing 运行之后,报告产生的整体样式。 pt_shell> report_timing -from start_

【论文精读】分类扩散模型:重振密度比估计(Revitalizing Density Ratio Estimation)

文章目录 一、文章概览(一)问题的提出(二)文章工作 二、理论背景(一)密度比估计DRE(二)去噪扩散模型 三、方法(一)推导分类和去噪之间的关系(二)组合训练方法(三)一步精确的似然计算 四、实验(一)使用两种损失对于实现最佳分类器的重要性(二)去噪结果、图像质量和负对数似然 论文:Classification Diffusion Models: Revitalizing

【python】python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 python葡萄酒国家分布情况数据分析pyecharts可视化(源码+数据集+论文)【独一无二】 目录 python葡

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【LLM之KG】CoK论文阅读笔记

研究背景 大规模语言模型(LLMs)在许多自然语言处理(NLP)任务中取得了显著进展,特别是在零样本/少样本学习(In-Context Learning, ICL)方面。ICL不需要更新模型参数,只需利用几个标注示例就可以生成预测。然而,现有的ICL和链式思维(Chain-of-Thought, CoT)方法在复杂推理任务上仍存在生成的推理链常常伴随错误的问题,导致不真实和不可靠的推理结果。

【python】python基于akshare企业财务数据对比分析可视化(源码+数据集+论文)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C++/Python语言 👉公众号👈:测试开发自动化【获取源码+商业合作】 👉荣__誉👈:阿里云博客专家博主、51CTO技术博主 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 系列文章目录 目录 系列文章目录一、设计要求二、设计思路三、可视化分析 一、设计要求 选取中铁和贵州茅

AIGC-Animate Anyone阿里的图像到视频 角色合成的框架-论文解读

Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation 论文:https://arxiv.org/pdf/2311.17117 网页:https://humanaigc.github.io/animate-anyone/ MOTIVATION 角色动画的