TSI: Temporal Scale Invariant Network for Action Proposal Generation论文阅读笔记

本文主要是介绍TSI: Temporal Scale Invariant Network for Action Proposal Generation论文阅读笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文地址:ACCV_2020_paper.pdf

Abstract

简单介绍了本文贡献,当前SOTA的方法对短动作检测的准确率很低。本文是第一个分析了样本不均衡问题,并设计了一种新的尺度不变的损失函数来缓解短动作学习不够的问题。为了进一步实现提案生成任务,作者还采用了边界评价和提案完整性回归的pipline。

Introduction

作者发现,在时序动作检测中,在完整性预测中容易遗漏较短的动作,这反映为与较长动作相比,短动作的召回率极低。作者深入研究了这一现象,并得出结论,对短行为的不预测可能是由不平衡的正样本分布引起的。另一个限制性能提高的瓶颈是边界检测模块。目前的方法主要关注局部信息和低级特征,但在确定行动边界时忽略了关键的全局上下文。局部-全局组合是扩大这一瓶颈的一个直观和有希望的方向。
具体来说,TSI新采用了多分支时间边界检测器以高回归率和高准确率捕获动作边界。同时,由提出的尺度不变损失函数监督的IoU回归,能够回归准确的置信分数,特别是对于短动作。本工作的主要贡献总结如下:
1.以时间尺度问题为中心,我们分析了其背后的样本不平衡现象,并据此设计了一个尺度不变的损失函数来提高对短动作的检测性能。 2.为了实现完整的行动方案生成,TSI除了处理尺度问题外,还利用时间上下文进行了局部-全局-互补结构的边界检测,以提高性能。 3.对THUMOS14和ActivityNet基准测试进行了综合实验。结果表明,TSI优于其他最先进的动作提案生成方法,在ActivityNet上的AUC为68.35%。

Our Approach

Problem Definition and Video Representation

作者采用双流网络将视频X的原始RGB帧和光流编码为具有代表性的视频特征序列F∈ R C × T R^{C×T} RC×T,其中C为固定特征通道,T为视频特征长度。然后通过线性插值将特征序列重新缩放为长度D,最终得到特征F∈ R C × D R^{C×D} RC×D,作为动作建议生成网络的输入。

Scale-Imbalance Analysis in Proposal Generation

由于正负样本的不平衡问题,作者认为一个好的loss函数需要包含以下两点:1.每个GT的贡献应该是相等的 2.阳性/阴性样本应适当的平衡。为此,作者提出了尺度不变损失(SI损失):
在这里插入图片描述
这样,考虑到正样本数分布,在视频中可以均匀地学习训练loss中的每个视频动作类别,从而达到了尺度不变的目的。此外,为了控制正负样本的平衡,在SI-Loss中采用了超参数α。当视频只包含一个annotation,α为0.5时,尺度不变损失将退化为正常的二进制逻辑损失。此外,当α大于0.5时,SI-Loss对阴性样本有较高的权重,这可以减少假阳性反应。在SI-Loss的监督下,在提案完整性回归模块中,检索小目标的能力大大提高。

Temporal Scale Invariant Network

在尺度不变损失的情况下,为了实现完整的动作proposal生成过程,我们结合了自下而上和自上而下的路径,提出了时间尺度不变网络。TSI的框架如下图所示,它包含两个模块:时间边界检测器(TBD)和IoU Map回归器(IMR)。
在这里插入图片描述
时间边界检测器:对动作边界的精确预测是一种执行良好的动作方案生成方法的必要条件之一。传统的方法认为边界是一种局部信息,不需要对时间上下文或深度语义特征的关注,因此它们都具有有限的接受域。
在TBD中,local分支观察到一个小的接受域,只有两个时间卷积层。因此,该分支关注于local突变,生成一个高召回率的粗糙边界,覆盖所有实际的起始/终点,但带来极低的精度。为了弥补这一缺点,global分支扩大了接受域,并以背景u型网络呈现边界,这是受到UNet的启发。global分支使用多个时态卷积层,然后进行降采样步骤来提取不同粒度的语义信息。为了恢复时间特征序列的分辨率,我们重复了多个上采样操作,并连接了相同分辨率下的特征。
下图是TBD架构的具体实现,TBD包含局部分支和全局分支,以高准确率、高回归率检测边界。c表示连接操作。conv1d(3,128)表示核大小为3和输出通道128的时间卷积层。ReLU用于激活功能。最后,利用2个通道的1x1卷积和sigmoid函数生成两个分支的起始和结束边界。综上所述,这种局部结构和全局结构的结合将最好地利用具有上下文特征的低级细粒度特征。
在这里插入图片描述
IoU Map Regressor:除了边界评价的自底而上路径外,提案置信回归对行动建议的生成也至关重要。为了密集回归潜在的建议置信度,我们采用了BMN中的边界匹配机制,该机制可以将时间特征序列F∈ R C × D R^{C×D} RC×D通过BM层转移到建议特征矩阵MF∈ R C × M × D × D R^{C×M×D×D} RC×M×D×D中。边界匹配机制本质上是用矩阵乘积实现的ROI对齐层。通过使用该模块,所有提案的完整性都可以同时进行回归。

Training and Inference

Training of TBD:
在这里插入图片描述
Loss of IMR:
作者使用提出的SI-Loss作为分类损失 l c l_c lc,L2-Loss作为回归损失 L r L_r Lr
在这里插入图片描述
TSI的训练目标是在统一的框架下进行多任务学习。总体损失函数包含TBD损失、IMR损失和L2正则化项:
在这里插入图片描述
Inference of TSI:
方案选择:为了保证提案的多样性和保证高召回率,只使用TBD的Local branch进行提案选择。将所有边界概率满足(1)局部峰值和(2)概率大于0.5·max§的时间位置作为起始位置和结束位置。然后匹配所有的起始位置和结束位置,以生成候选提案。
分数融合和提案抑制。对每个proposal(i,j),其持续时间为i,开始时间为j,结束时间为i+j,其IoU完整性表示为分类得分和回归得分的融合。其起始概率记为在这里插入图片描述
,与结束概率结束相同。因此,提案置信度评分定义为=启动·结束·保函
。然后采用Soft-NMS去除冗余提案,以检索最终的高质量提案。

这篇关于TSI: Temporal Scale Invariant Network for Action Proposal Generation论文阅读笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/753918

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

数学建模笔记—— 非线性规划

数学建模笔记—— 非线性规划 非线性规划1. 模型原理1.1 非线性规划的标准型1.2 非线性规划求解的Matlab函数 2. 典型例题3. matlab代码求解3.1 例1 一个简单示例3.2 例2 选址问题1. 第一问 线性规划2. 第二问 非线性规划 非线性规划 非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。2

【C++学习笔记 20】C++中的智能指针

智能指针的功能 在上一篇笔记提到了在栈和堆上创建变量的区别,使用new关键字创建变量时,需要搭配delete关键字销毁变量。而智能指针的作用就是调用new分配内存时,不必自己去调用delete,甚至不用调用new。 智能指针实际上就是对原始指针的包装。 unique_ptr 最简单的智能指针,是一种作用域指针,意思是当指针超出该作用域时,会自动调用delete。它名为unique的原因是这个

查看提交历史 —— Git 学习笔记 11

查看提交历史 查看提交历史 不带任何选项的git log-p选项--stat 选项--pretty=oneline选项--pretty=format选项git log常用选项列表参考资料 在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的 工具是 git log 命令。 接下来的例子会用一个用于演示的 simplegit