Weakly Supervised Audio-Visual Violence Detection 论文阅读

2024-04-17 06:04

本文主要是介绍Weakly Supervised Audio-Visual Violence Detection 论文阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Weakly Supervised Audio-Visual Violence Detection 论文阅读

  • 摘要
  • III. METHODOLOGY
    • A. Multimodal Fusion
    • B. Relation Modeling Module
    • C. Training and Inference
  • IV. EXPERIMENTS
  • V. CONCLUSION
  • 阅读总结

文章信息:

在这里插入图片描述

发表于:IEEE TRANSACTIONS ON MULTIMEDIA 2022

摘要

由于近年来大量视频的涌现,视频中的暴力检测在实际应用中非常有前景。大多数以前的工作将暴力检测定义为简单的视频分类任务,并使用小规模数据集的单模态,例如,视觉信号。然而,这样的解决方案供给不足。为了缓解这个问题,我们研究了大规模音视频暴力数据上的弱监督暴力检测,并首次引入了两个互补的任务,即粗粒度暴力帧检测和细粒度暴力事件检测,将简单的暴力视频分类推进到帧级别的暴力事件定位,旨在准确地定位未经修剪的视频中的暴力事件。然后,我们提出了一种新颖的网络,将音视频数据作为输入,并包含三个并行分支来捕获视频片段之间的不同关系,并进一步集成特征,其中相似性分支和接近性分支分别使用相似性先验和接近性先验捕获长程依赖关系,评分分支动态捕获预测分数的接近程度。在粗粒度和细粒度任务中,我们的方法在两个公开数据集上均优于其他最先进的方法。此外,实验结果还显示了音视频输入和关系建模的积极效果。

III. METHODOLOGY

在本节中,我们首先介绍多模态融合以生成音视频融合特征(第III-A节),然后将融合特征输入到以下模型中以捕捉三种不同的关系(第III-B节)。接下来,我们介绍了用于训练和推断过程的客观函数(第III-C节)。最后,我们展示了我们模型的时间空间复杂性(第III-D节)。我们提出的方法总结在图1中。

在这里插入图片描述

图1. 我们提出方法的流程图。给定一个视频和相应的音频,首先使用特征提取器提取视觉和音频特征。然后将这些不同模态的特征融合以生成片段特征。RM 模块用于建模片段之间的三种不同关系,可用于离线检测,而在线检测器则用于在线检测,可以在没有未来内容的情况下检测暴力行为。我们的方法很灵活,因为它可以同时应用于粗粒度和细粒度的暴力检测任务。

A. Multimodal Fusion

考虑到我们有一个未修剪的视频 v v v 和相应的标签 y B y^B yB y y y,其中 y B ∈ { 0 , 1 } , y B = 1 y^B{\in}\{0,1\},y^B=1 yB{0,1},yB=1 表示 v v v 包含了暴力事件,而 y = { 0 , 1 } i = 1 M + 1 , M y=\{0,1\}_{i=1}^{M+1},M y={0,1}i=1M+1,M 是暴力类别的数量。我们使用现成的预训练网络作为特征提取器 F V F^V FV F A F^A FA,并通过滑动窗口机制提取视觉和音频特征矩阵 X V X^V XV X A X^A XA,其中 X V ∈ R T × d V X^V\in\mathbb{R}^{T\times d^V} XVRT×dV X A ∈ R T × d A X^A\in\mathbb{R}^{T\times d^A} XART×dA x i V ∈ R d V x_i^V\in\mathbb{R}^{d^V} xiVRdV x i A ∈ R d A x_i^A\in\mathbb{R}^{d^A} xiARdA 分别表示第 i i i 个片段的视觉和音频特征。 T T T 是视频 v v v 的长度, d V d^V dV d A d^A dA 分别是视觉和音频特征的维度。

然后我们将视觉和音频特征连接起来生成融合特征。更具体地说,我们首先将 X V X^V XV X A X^A XA 在通道上堆叠,然后将堆叠的特征送入两个堆叠的全连接(FC)层,每个层都有512和128个神经元。每个FC层后跟ReLU激活函数和dropout。我们得到融合特征,表示为 X F X^F XF,它是两个堆叠FC层的最终输出。

B. Relation Modeling Module

我们首先回顾神经网络中的长程依赖建模[28],它可以用公式表示如下:

在这里插入图片描述
与常规的卷积层的主要区别在于聚合操作,它汇总来自全局范围(长程依赖)而不是局部区域的信息。

相似度分支的实现:我们通过特征相似性先验设计了相似性关系矩阵,从视频理解的GCN中获得启发。相似性关系如下所示:
在这里插入图片描述
其中, A s ∈ R T × T A^s\in\mathbb{R}^{T\times T} AsRT×T A i j S A_{ij}^S AijS衡量第 i i i个和第 j j j个特征之间的特征相似度。 值得注意的是,在公式(2)中,大小为 T × ( d V + d A ) T{\times}(d^V{+}d^A) T×(dV+dA) X X X表示原始特征的串联,以利用原始的先验知识。 g g g是归一化函数,函数 f f f用于计算一对特征的余弦相似度,其定义如下:
在这里插入图片描述
在公式(3)中的相似性被限制在(0, 1]的范围内,然后使用阈值机制来过滤掉更不相似的成对弱关系,并加强更相似成对的关系。阈值机制如下所示:
在这里插入图片描述
其中τ是阈值,其位于0和1之间。

之后,使用归一化函数 g g g来确保A的每行之和为1,这里我们采用softmax作为 g g g,如图所示:
在这里插入图片描述
遵循GCN范例,我们如下引入相似性层,
在这里插入图片描述
这样的操作旨在基于全局范围内特征的加权和来计算位置响应,而不是基于局部邻居。W是用于转换特征空间的可学习权重。

接近性分支的实现:虽然相似性分支可以捕捉长程依赖性,但它直接计算任意两个位置之间的相似性,并忽视了位置距离。位置信息在视频中也起着至关重要的作用,例如,时间事件检测。在这项工作中,我们在接近性先验之上设计了另一个关系矩阵,如下所示:
在这里插入图片描述
这里第 i i i个和第 j j j个特征之间的接近性关系仅与它们相对时间位置有关,其中 γ \gamma γ π \pi π是超参数,用于控制距离关系的影响范围。这样的设置确保了位置越接近,关系越高;否则,关系越小。

类似地,邻近层如下所示,
在这里插入图片描述
评分分支的实现:如上所述,用于暴力检测的前瞻性算法旨在进行离线检测,例如,互联网录像机,以及在线检测,例如,监控系统。然而,以上 RM 模块的在线检测受到一个主要障碍的阻碍:RM 模块通过整个视频获取长程依赖性。为了解决这一困境,我们提出了一个在线检测器,它将先前的视频片段作为输入,而不是整个视频,以在 RM 模块的指导下生成粗粒度和细粒度的预测。具体来说,两个堆叠的全连接(FC)层后跟 ReLU 和两个并行分类器构成了在线检测器。一个分类器是在线粗粒度分类器,即,一个具有时间上大小为5的卷积核,步长为1,填充为4的因果卷积层,在时间上滑动卷积滤波器。该分类器的输出是形状为 T T T 的粗粒度暴力激活,表示为 C O C C^{OC} COC。另一个分类器是在线细粒度分类器,它包括两个 1D 卷积层。第一层是一个因果层,卷积核大小为5,然后是 ReLU,第二层将特征投影到 M + 1 M+1 M+1 维空间,以获得细粒度暴力激活,表示为 C O F C^{OF} COF

这个操作引入了一个额外的分支,称为评分分支,它依赖于 C O C C^{OC} COC。评分分支旨在计算一个位置响应,作为所有位置特征的加权和,其中权重依赖于预测分数 C O C C^{OC} COC 的接近程度。与相似性和接近性分支的关系矩阵不同,评分分支的关系矩阵在每次迭代中动态更新。具体来说,评分分支的关系矩阵设计如下:
在这里插入图片描述
其中, s s s 是 Sigmoid 函数, ρ \rho ρ 是 Sigmoid 的一种变体,其作用是基于预测分数的接近程度来转换成对关系。如果一对之间的分数接近(在本文中,0.5 是预定义的阈值),则增加这对之间的关系;否则,减少。Softmax 也用于归一化。

类似地,评分层如下所示:
在这里插入图片描述
其中 X 0 O ( = X 0 S = X 0 P ) = X F \begin{aligned}X_0^O(=X_0^S=X_0^P)=X^F\end{aligned} X0O(=X0S=X0P)=XF

C. Training and Inference

我们设计了两个类似于在线检测器的并行分类器,将特征映射到两个不同的空间。具体来说,我们简单地使用一个 FC 层作为粗粒度分类器,将串联表示投影到类别空间,其中这个 FC 层的输出大小为 1。粗粒度的暴力激活 C C ∈ R T C^C{\in}\mathbb{R}^T CCRT 可以表示如下:
在这里插入图片描述
其中 ∥ \| 表示连接操作。类似地,我们引入了细粒度分类器,它将串联表示投影到 M + 1 M+1 M+1 维空间。细粒度的暴力激活可以表示如下:

在这里插入图片描述
由于我们只有视频级别的真实标签,我们需要获得视频级别的预测。在此之后,计算视频级别预测和真实标签之间的差异。遵循 MIL [6],[38] 的原则,我们使用时间维度上的 Top-K 激活的平均值而不是整个激活来计算粗粒度置信度 p O C , p C p^{OC},p^C pOC,pC 和细粒度置信度 p O F , p F p^{OF},p^F pOF,pF。具体地,预测的置信度可以计算如下:
在这里插入图片描述
其中 C m a x C^{max} Cmax 是前 K K K 大的激活值,而 K K K 的定义如下:
在这里插入图片描述
粗粒度分类损失是预测的粗粒度置信度 p C ( o r O C ) p^{C(orOC)} pC(orOC) 和真实标签 y B y^{B} yB 之间的二元交叉熵,如下所示:
在这里插入图片描述
细粒度分类损失是基于交叉熵的,我们首先使用softmax得到概率质量函数,定义如下:
在这里插入图片描述
那么,细粒度分类定义为:
在这里插入图片描述
由于一个视频可能包含多个暴力事件,因此我们在这里对 y 进行 L1 归一化得到 y ˉ \bar{y} yˉ。此外,还利用知识蒸馏损失来鼓励在线检测器的输出逼近 RM 模块的输出,具体如下所示:

在这里插入图片描述
其中函数σ为softmax。最后,将上述损失加起来计算总损失,如下所示:
在这里插入图片描述
推断:对于粗粒度暴力帧检测,我们使用 Sigmoid 函数对粗粒度暴力激活 C C C^C CC C O C C^{OC} COC 进行归一化,并计算离线和在线粗粒度暴力置信度,限制在 [0,1] 的范围内,因为我们的模型可以选择离线或在线方式来检测暴力事件,以满足不同的需求。值得注意的是,在在线推断中,RM 模块被移除,只有在线检测器起作用。对于细粒度暴力事件检测,我们遵循之前的工作[39],使用阈值策略来预测暴力事件。在测试时给定一个暴力视频,我们首先丢弃细粒度置信度低于某个阈值(本文中使用0.0)的暴力类别。然后,对于剩余的每个类别,我们沿着时间轴应用一个阈值来获取暴力片段。预测的暴力片段的得分是其最高帧激活和相应类别激活的加权和。

IV. EXPERIMENTS

在这里插入图片描述

V. CONCLUSION

在本文中,我们研究了大规模暴力数据上的弱监督音视频暴力检测。我们引入了两个互补的任务,一个是粗粒度暴力帧检测,重点是在帧级别上区分,另一个是细粒度暴力事件检测,考虑了预测的暴力事件的类别和连续性。然后,我们提出了一种通用方法,明确地建模了视频片段之间的关系,并学习了强大的音视频表示。大量实验证明,

  1. 多模态显著提高了性能;
  2. 明确地利用关系非常有效;
  3. 我们的方法在两个不同的任务上表现良好,而且多任务学习在我们的方法中是有效的。

阅读总结

这篇文章的Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision 拓展工作。

主要是增加了一个细粒度的分支。
两篇文章在XD-Violence上的结果都是一样的吗?
左边是这篇文章的,右边是之前的那篇文章。

在这里插入图片描述
怎么说网络和损失都是变化了一些的。

这篇关于Weakly Supervised Audio-Visual Violence Detection 论文阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/910976

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin