[深度学习论文笔记]Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images

本文主要是介绍[深度学习论文笔记]Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[ACM MM 15] Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images

Chen Sun, Sanketh Shettyy, Rahul Sukthankary and Ram Nevatia
from USC & Google

paper link

Motivation

这篇文章的主要目标是研究如何使用大量从搜索引擎得到的图片,定位视频中细粒度的动作在时间轴上的位置。

网络图片是通过在搜索引擎中搜索某些特定动作的名字得到的(如篮球比赛中的扣篮等)。作者将视频和搜索得到的图片视为两个不同的域。其中视频可以视作一些列的帧,这些帧包括了设计动作的部分,也包括了不涉及动作的无关帧。找出包含动作的帧就是实现了动作定位任务。网络图片可以认为他们的内容包含的搜索的动作,但是很多图片和视频帧的类型差别过大。如有些图片的拍摄视角和视频差别很大,有些图片是漫画而不是现实拍摄的素材。如图1所示。因此如何有效利用这些网络图片是关键。

图1

Method

作者主要使用不同域之间的迁移来不断过滤两个域中无用的数据。具体方法流程如下:

  1. 首先在每一个域(视频帧和网络图片)上训练单独的动作分类器,之后在另一个域上做分类预测;
  2. 过滤正确类别的分类概率较低的图片。这样可以净化两个域里面的图片:视频域里和动作无关的图片被过滤,网络图片中和视频差别很大的图片被过滤;
  3. 重复1,2中的步骤,直至稳定。

此时,视频中的每一帧都可以得到一个被过滤掉的置信度。基本上没有被过滤掉的帧被称为动作定位帧(localized action frames, LAF)。在此之后,作者进一步利用了LAF,即在原视频上训练CNN-LSTM进行视频分类。监督信息是整个视频的动作类别标注。步骤2中产生的概率作为每一帧损失函数的权重。被认定为是非动作的帧一定程度上被排除到训练样本之外。训练完成后,CNN-LSTM模型可以对视频进行动作分类。

最后为了定位动作,作者使用CNN-LSTM模型输出每一帧的分类概率,然后用时域上的滑动窗口扫,窗口内概率超过阈值的框即视作包含了一个动作。重叠在一起的滑动窗口使用非极大值抑制(NMS)过滤。

Experiment

在CNN-LSTM模型中,作者使用AlexNet作为CNN主干。在THUMOS2014数据集上,该模型的动作定位性能为:
在这里插入图片描述

这篇关于[深度学习论文笔记]Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/967416

相关文章

一文教你如何将maven项目转成web项目

《一文教你如何将maven项目转成web项目》在软件开发过程中,有时我们需要将一个普通的Maven项目转换为Web项目,以便能够部署到Web容器中运行,本文将详细介绍如何通过简单的步骤完成这一转换过程... 目录准备工作步骤一:修改​​pom.XML​​1.1 添加​​packaging​​标签1.2 添加

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步

Redis中高并发读写性能的深度解析与优化

《Redis中高并发读写性能的深度解析与优化》Redis作为一款高性能的内存数据库,广泛应用于缓存、消息队列、实时统计等场景,本文将深入探讨Redis的读写并发能力,感兴趣的小伙伴可以了解下... 目录引言一、Redis 并发能力概述1.1 Redis 的读写性能1.2 影响 Redis 并发能力的因素二、

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

《最新SpringSecurity实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)》本章节介绍了如何通过SpringSecurity实现从配置自定义登录页面、表单登录处理逻辑的配置,并简单模拟... 目录前言改造准备开始登录页改造自定义用户名密码登陆成功失败跳转问题自定义登出前后端分离适配方案结语前言

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

Redis 内存淘汰策略深度解析(最新推荐)

《Redis内存淘汰策略深度解析(最新推荐)》本文详细探讨了Redis的内存淘汰策略、实现原理、适用场景及最佳实践,介绍了八种内存淘汰策略,包括noeviction、LRU、LFU、TTL、Rand... 目录一、 内存淘汰策略概述二、内存淘汰策略详解2.1 ​noeviction(不淘汰)​2.2 ​LR

web网络安全之跨站脚本攻击(XSS)详解

《web网络安全之跨站脚本攻击(XSS)详解》:本文主要介绍web网络安全之跨站脚本攻击(XSS)的相关资料,跨站脚本攻击XSS是一种常见的Web安全漏洞,攻击者通过注入恶意脚本诱使用户执行,可能... 目录前言XSS 的类型1. 存储型 XSS(Stored XSS)示例:危害:2. 反射型 XSS(Re

Python与DeepSeek的深度融合实战

《Python与DeepSeek的深度融合实战》Python作为最受欢迎的编程语言之一,以其简洁易读的语法、丰富的库和广泛的应用场景,成为了无数开发者的首选,而DeepSeek,作为人工智能领域的新星... 目录一、python与DeepSeek的结合优势二、模型训练1. 数据准备2. 模型架构与参数设置3

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动