近年多示例论文阅读(8): Web Objectionable Video Recognition Based on Deep Multi-Instance Learning With.....

本文主要是介绍近年多示例论文阅读(8): Web Objectionable Video Recognition Based on Deep Multi-Instance Learning With.....，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

基本信息

题目：基于具有代表性原型选择的深度多实例学习的Web不良视频识别
等级：2021年发表在sci一区期刊 IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY
bib:

@article{ding2020web,title={Web Objectionable Video Recognition Based on Deep Multi-Instance Learning With Representative Prototypes Selection},author={Ding, Xinmiao and Li, Bing and Li, Yangxi and Guo, Wen and Liu, Yao and Xiong, Weihua and Hu, Weiming},journal={IEEE Transactions on Circuits and Systems for Video Technology},volume={31},number={3},pages={1222--1233},year={2020},publisher={IEEE}
}

主要思想

摘要

为了防止未成年人访问互联网上的不良视频，需要一种有效的不良视频识别算法来进行网络过滤。最近，多实例学习已被引入用于不良视频识别，并取得了令人印象深刻的结果。然而，不良视频中的手工制作特征以及冗余和嘈杂的帧成为一个棘手的问题，不可避免地会降低识别性能。在本文中，我们提出了一种嵌入深度多实例表示学习的新型代表性原型选择算法。在所提出的方法中，设计了一种改进的卷积神经网络用于多模态多实例特征学习，并设计了一种基于稀疏和低秩约束的自表达字典学习模型，用于从实例的每个子空间中选择具有代表性的原型。然后通过将包映射到所选原型来构造包级特征。对三个不良视频集的实验表明了我们的不良视频识别方法的有效性。

算法

在这里插入图片描述
step1：一些预处理，仅抽取视频中的一些关键帧输入网络。
step2：一个单独的多示例卷积网络(MI-CNN)，用于将图片转化为向量。从而使得一个包含多帧图像的视频(包)转化为一个传统的多示例包(矩阵)。
step3：从所有训练包内部选择代表实例以构建映射函数。
step4：映射过程。
step5：传统的SVM分类器进行分类。
Notes：上图中的MI-CNN为一个单独的网络，所以必须有一个优化目标，文中使用的是交叉熵。MI-CNN的输入输出都是实例级别，其作用仅为得到图片的单向量表示。
以下为MI-CNN的具体架构示意图：
在这里插入图片描述
MI-CNN使用了多模态数据进行训练，分别为视频的图像和音频。