TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks论文阅读笔记

本文主要是介绍TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks论文阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Abstract

由于未修剪的视频占用大量的内存空间,目前SOTA的TAL方法使用了预先处理好的视频特征。这些特征是从视频编码器中提取出来的,它们通常被用于动作分类任务的训练,这使得这些特征不一定适合于时序动作检测。在这项工作中,我们提出了一种新的用于视频片段特征的有监督预训练范式,它不仅训练活动分类活动,还考虑背景剪辑和全局视频信息,以提高时间敏感度。大量的实验表明,使用我们的新的预训练策略训练得到的特征显著提高了最近SOTA方法在三个任务上的性能:时间动作定位、动作建议生成和密集视频字幕。我们还表明,我们的预训练方法在三个编码器架构和两个预训练数据集上是有效的。我们认为视频特征编码是定位算法的重要组成部分,提取时间敏感的特征对于建立更准确的模型至关重要。

Introduction

贡献如下:(I)我们提出了TSP,一个时间敏感的视频编码器有监督预训练任务。TSP训练一个编码器来明确区分未修剪的视频中的前景和背景剪辑。(II)我们通过丰富的实验表明,使用TSP任务预训练的特征显著提高了三个视频定位问题的性能。此外,我们还展示了我们的预训练策略在三个编码器架构和两个预训练数据集上的泛化能力。我们还证明了在同一目标问题上训练的多个定位算法的一致性能增益。(三)我们对我们的特征进行了广泛的分析研究。有趣的是,我们观察到TSP预训练可以提高对短动作实例的时间动作定位性能。该研究还表明,我们的特征实际上是时间敏感的,可以编码不同于前景剪辑的背景剪辑。

Technical Approach

Traditional Pretraining:由于在不大幅降采样空间或时间的情况下,将整个未裁剪的视频送入gpu中进行训练是不切实际的,目前最先进的定位算法有一个共同的做法,即它们不直接在目标任务(例如TAL)上调整视频编码器。相反,他们使用预先训练好的编码器作为固定的特征提取器。修剪动作分类(TAC)是对这些编码器进行预训练的传统方法。TAC任务的目的是对短视频的片段进行分类,其中动作跨越整个视频。虽然TAC已经成功地提供了区分不同动作类的特性,但它通常不能区分动作实例和它附近的背景上下文。例如,最近的研究表明,最先进的TAL方法对动作实例周围的上下文相当敏感,它们无法区分动作及其时间背景上下文是提高本地化性能的主要障碍。我们认为,在这些最先进的定位方法中使用的特性,在TAC上进行了预训练,是这种混淆的一个来源。因此,我们提出背离传统的策略,通过一种新的预训练任务使特征对时间敏感。
How to Incorporate Temporal Sensitivity:TAC预训练的编码器的一个限制方面是,它们只能从正样本(前景/动作剪辑)中学习。直观地说,从负样本(背景/无动作剪辑)中学习有望提高这些编码器的时间辨别能力。给定一个未修剪的视频,一个用于定位问题的很好的编码器应该能够区分不同动作的语义以及动作和它们的背景上下文。直观地说,知道剪辑是在动作内部还是外部的剪辑特性,可以直接帮助本地化方法为TAL和提案找到更好的活动/提案边界。因此,我们建议对编码器进行预训练,用(1)对前景剪辑的标签进行分类,用(2)对剪辑的动作内外进行分类。
Temporally-Sensitive Pretraining
输入数据:我们使用带有时间注释的未修剪的视频对模型进行预训练。编码器以端到端方式从原始视频输入中学习。特别地,给定一个未修剪的视频,我们采样一个固定大小的输入片段X,大小为3×L×H×W,其中3是RGB通道,L是帧数,H和W是帧的高度和宽度。我们分配X两个标签:如果该剪辑来自前景片段,(1)分配动作类标签yc,(2)还有一个二进制时间区域标签yr,指示该剪辑是否来自视频的前景/动作(=1)或背景/无动作(=0)区域。

本地和全局特征编码:设E是将剪辑X转换为大小为F的特征向量f的视频编码器。我们将f称为局部剪辑特征。假设是未修剪视频的一组剪辑。我们将最大合并特征 f g f^g fg=max(E(Xi))称为全局视频特征(GVF)。如果只给定一个短片段X,分类X是在动作内部还是外部是具有挑战性的。这个挑战源于这样一个事实:我们只能访问本地上下文,而我们希望解决的任务本身就需要对视频内容的全局理解。为了克服这一挑战,我们将GVF与本地片段特征相结合,以更好地学习该任务。

两个分类头:我们使用两个分类头来对编码器进行预训练。具体来说,第一个头(动作标签头)由一个大小为F×C的全连接(FC)层组成,其中C是数据集中动作类的数量。该层将局部特征f转换为一个动作标签的对数向量。第二个头部(时间区域头部)是一个大小为2F×2的FC层,它以局部和全局特征的连接, f f f f g f^g fg作为输入,以产生一个时间区域对数向量。
在这里插入图片描述
优化细节:时间标注的视频数据集在前景和背景的时间之间存在自然的不平衡。为了减轻这种不平衡,我们以这样一种方式对视频片段进行子样本采样:即对相同数量的前景和背景视频样本进行训练。我们在Kinetics-400数据集上预训练我们的编码器的权重。许多最近的模型已经公开了它们在Kinetics数据集上预训练的权重,我们在我们的实验中使用了这些模型。理想情况下,我们希望通过我们的模型的GVF部分反向传播损失。然而,正如前面提到的,在gpu中处理整个未修剪的视频是不切实际的。因此,我们在训练过程中冻结了GVF,即我们从Kinetics中预训练的初始化编码器中预先计算出每个视频的GVF。

这篇关于TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks论文阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/242841

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓