[深度学习论文笔记]Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images

本文主要是介绍[深度学习论文笔记]Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

[ACM MM 15] Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images

Chen Sun, Sanketh Shettyy, Rahul Sukthankary and Ram Nevatia
from USC & Google

paper link

Motivation

这篇文章的主要目标是研究如何使用大量从搜索引擎得到的图片，定位视频中细粒度的动作在时间轴上的位置。

网络图片是通过在搜索引擎中搜索某些特定动作的名字得到的（如篮球比赛中的扣篮等）。作者将视频和搜索得到的图片视为两个不同的域。其中视频可以视作一些列的帧，这些帧包括了设计动作的部分，也包括了不涉及动作的无关帧。找出包含动作的帧就是实现了动作定位任务。网络图片可以认为他们的内容包含的搜索的动作，但是很多图片和视频帧的类型差别过大。如有些图片的拍摄视角和视频差别很大，有些图片是漫画而不是现实拍摄的素材。如图1所示。因此如何有效利用这些网络图片是关键。

Method

作者主要使用不同域之间的迁移来不断过滤两个域中无用的数据。具体方法流程如下：

首先在每一个域（视频帧和网络图片）上训练单独的动作分类器，之后在另一个域上做分类预测；
过滤正确类别的分类概率较低的图片。这样可以净化两个域里面的图片：视频域里和动作无关的图片被过滤，网络图片中和视频差别很大的图片被过滤；
重复1,2中的步骤，直至稳定。

此时，视频中的每一帧都可以得到一个被过滤掉的置信度。基本上没有被过滤掉的帧被称为动作定位帧（localized action frames, LAF）。在此之后，作者进一步利用了LAF，即在原视频上训练CNN-LSTM进行视频分类。监督信息是整个视频的动作类别标注。步骤2中产生的概率作为每一帧损失函数的权重。被认定为是非动作的帧一定程度上被排除到训练样本之外。训练完成后，CNN-LSTM模型可以对视频进行动作分类。

最后为了定位动作，作者使用CNN-LSTM模型输出每一帧的分类概率，然后用时域上的滑动窗口扫，窗口内概率超过阈值的框即视作包含了一个动作。重叠在一起的滑动窗口使用非极大值抑制（NMS）过滤。

Experiment

在CNN-LSTM模型中，作者使用AlexNet作为CNN主干。在THUMOS2014数据集上，该模型的动作定位性能为：
在这里插入图片描述

这篇关于[深度学习论文笔记]Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

[深度学习论文笔记]Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images

[ACM MM 15] Temporal Localization of Fine-Grained Actions in Videos by Domain Transfer from Web Images

Motivation

Method

Experiment

相关文章

Vuex Actions多参数传递的解决方案

利用Python快速搭建Markdown笔记发布系统

SpringCloud动态配置注解@RefreshScope与@Component的深度解析

JSON Web Token在登陆中的使用过程

一文教你如何将maven项目转成web项目

Python 中的异步与同步深度解析(实践记录)

Redis中高并发读写性能的深度解析与优化

最新Spring Security实战教程之表单登录定制到处理逻辑的深度改造(最新推荐)

Java进阶学习之如何开启远程调式

Redis 内存淘汰策略深度解析(最新推荐)