近年多示例论文阅读(8): Web Objectionable Video Recognition Based on Deep Multi-Instance Learning With.....

本文主要是介绍近年多示例论文阅读(8): Web Objectionable Video Recognition Based on Deep Multi-Instance Learning With.....,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 基本信息
  • 主要思想
    • 摘要
    • 算法

基本信息

  • 题目:基于具有代表性原型选择的深度多实例学习的Web不良视频识别
  • 等级:2021年发表在sci一区期刊 IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY
  • bib:
@article{ding2020web,title={Web Objectionable Video Recognition Based on Deep Multi-Instance Learning With Representative Prototypes Selection},author={Ding, Xinmiao and Li, Bing and Li, Yangxi and Guo, Wen and Liu, Yao and Xiong, Weihua and Hu, Weiming},journal={IEEE Transactions on Circuits and Systems for Video Technology},volume={31},number={3},pages={1222--1233},year={2020},publisher={IEEE}
}

主要思想

摘要

为了防止未成年人访问互联网上的不良视频,需要一种有效的不良视频识别算法来进行网络过滤。最近,多实例学习已被引入用于不良视频识别,并取得了令人印象深刻的结果。然而,不良视频中的手工制作特征以及冗余和嘈杂的帧成为一个棘手的问题,不可避免地会降低识别性能。在本文中,我们提出了一种嵌入深度多实例表示学习的新型代表性原型选择算法。在所提出的方法中,设计了一种改进的卷积神经网络用于多模态多实例特征学习,并设计了一种基于稀疏和低秩约束的自表达字典学习模型,用于从实例的每个子空间中选择具有代表性的原型。然后通过将包映射到所选原型来构造包级特征。对三个不良视频集的实验表明了我们的不良视频识别方法的有效性。

算法

在这里插入图片描述
step1:一些预处理,仅抽取视频中的一些关键帧输入网络。
step2:一个单独的多示例卷积网络(MI-CNN),用于将图片转化为向量。从而使得一个包含多帧图像的视频(包)转化为一个传统的多示例包(矩阵)。
step3:从所有训练包内部选择代表实例以构建映射函数。
step4:映射过程。
step5:传统的SVM分类器进行分类。
Notes:上图中的MI-CNN为一个单独的网络,所以必须有一个优化目标,文中使用的是交叉熵。MI-CNN的输入输出都是实例级别,其作用仅为得到图片的单向量表示。
以下为MI-CNN的具体架构示意图:
在这里插入图片描述
MI-CNN使用了多模态数据进行训练,分别为视频的图像音频

这篇关于近年多示例论文阅读(8): Web Objectionable Video Recognition Based on Deep Multi-Instance Learning With.....的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/214791

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

Java Web指的是什么

Java Web指的是使用Java技术进行Web开发的一种方式。Java在Web开发领域有着广泛的应用,主要通过Java EE(Enterprise Edition)平台来实现。  主要特点和技术包括: 1. Servlets和JSP:     Servlets 是Java编写的服务器端程序,用于处理客户端请求和生成动态网页内容。     JSP(JavaServer Pages)

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

BUUCTF靶场[web][极客大挑战 2019]Http、[HCTF 2018]admin

目录   [web][极客大挑战 2019]Http 考点:Referer协议、UA协议、X-Forwarded-For协议 [web][HCTF 2018]admin 考点:弱密码字典爆破 四种方法:   [web][极客大挑战 2019]Http 考点:Referer协议、UA协议、X-Forwarded-For协议 访问环境 老规矩,我们先查看源代码

2014 Multi-University Training Contest 8小记

1002 计算几何 最大的速度才可能拥有无限的面积。 最大的速度的点 求凸包, 凸包上的点( 注意不是端点 ) 才拥有无限的面积 注意 :  凸包上如果有重点则不满足。 另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

2014 Multi-University Training Contest 7小记

1003   数学 , 先暴力再解方程。 在b进制下是个2 , 3 位数的 大概是10000进制以上 。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

2014 Multi-University Training Contest 6小记

1003  贪心 对于111...10....000 这样的序列,  a 为1的个数,b为0的个数,易得当 x= a / (a + b) 时 f最小。 讲串分成若干段  1..10..0   ,  1..10..0 ,  要满足x非递减 。  对于 xi > xi+1  这样的合并 即可。 const int maxn = 100008 ;struct Node{int

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

EasyPlayer.js网页H5 Web js播放器能力合集

最近遇到一个需求,要求做一款播放器,发现能力上跟EasyPlayer.js基本一致,满足要求: 需求 功性能 分类 需求描述 功能 预览 分屏模式 单分屏(单屏/全屏) 多分屏(2*2) 多分屏(3*3) 多分屏(4*4) 播放控制 播放(单个或全部) 暂停(暂停时展示最后一帧画面) 停止(单个或全部) 声音控制(开关/音量调节) 主辅码流切换 辅助功能 屏