TEA论文阅读

2023-11-28 21:20
文章标签 阅读 论文 tea

本文主要是介绍TEA论文阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

1.时间建模

  • 时间建模是视频中动作识别的关键,时间建模分为两个方面。

    • short-range motions:相邻帧之间的特征融合。
    • long-range aggregations:长时间序列的特征融合。
  • 当前的方法以及缺点。

    • short-range motions

      • 首先提取手工制作的光流,然后将其输入基于2D CNN的双流框架进行动作识别。
        1. 这样的双流架构分别处理每个流中的RGB图像和光流。光流的计算既耗时又需要存储。
        2. 空间和时间特征的学习是孤立的,并且仅在后期层执行融合。
    • long-range aggregations

      • 对单帧数据通过2D CNN提取特征,然后对多帧的特征图pooling操作,融合结果。

        缺点:这种简单的总结策略会导致时间信息的丢失/混乱

      • 采用局部3D/(2+1)D卷积运算来处理局部时间窗。通过在深层网络中重复叠加局部卷积来间接模拟长期时间关系。

        缺点:一般会使用若干CNN基本结构叠加从而提取特征,但叠加多了训练困难

2.模块提出

  • 本文提出了Temporal Excitation and Aggregation (TEA) block。该模块由两个子模块组成。分别解决上述的两个问题。

    1. motion excitation (ME) module
    2. multipletemporal aggregation (MTA) module

2.1Motion Excitation (ME) Module

在这里插入图片描述

ME模块的架构如上图所示。输入时空特征X的形状为[N;T;C;H;W],其中N是批大小(batch size)。T和C分别表示时间维和特征通道。H和W对应于空间形状。所提出的ME模块是,在所有特征通道中,不同的通道将捕获不同的信息。一部分通道倾向于对与背景场景相关的静态信息进行建模,而其他通道则主要关注描述时间差异的动态运动模式。对于动作识别,使模型能够发现并增强这些运动敏感通道是有益的。

  1. 在给定输入特征X的情况下,首先采用1×1二维卷积层来减少特征通道,以提高效率。

在这里插入图片描述

  1. 将时间步长 t 处的特征级运动表示近似地看作两个相邻帧Xr(t)和Xr(t+1)之间的差。我们提出先对特征进行信道变换,然后利用变换后的特征计算运动,而不是直接减去原始特征。形式上

在这里插入图片描述

  1. 我们将时间步末的运动特征表示为零,即M(T)=0,并将所有的运动特征串联起来构造最终的运动矩阵M(1);:::;M(T)]。然后利用全局平均池层来总结空间信息,因为我们的目标是激发运动敏感通道,其中详细的空间布局并不重要:
    在这里插入图片描述

  2. 利用另一个1×1二维卷积层conv_{exp}将运动特征的通道维数扩展到原始通道维数C,并利用sigmoid函数得到运动注意权重A

在这里插入图片描述

  1. 最后,该模块的目标是激发运动敏感通道,因此,一个简单的方法是在输入特征X和注意权重a之间进行信道乘法,但是这种方法会抑制静态背景场景信息,这也有利于动作识别。为了解决这一问题,在提出的基于运动的激励模块中,我们提出采用残差连接来增强运动信息,同时保留场景信息。

在这里插入图片描述

2.2 Multiple Temporal Aggregation (MTA) Module

在这里插入图片描述

如上图的右上角所示,给定一个输入特征X,一个典型的方法是用一个局部时间卷积和另一个空间卷积来处理它。与此不同的是,我们沿着通道维度将特征分成四个片段,每个片段的形状就变成了[N;T;C/4;H;W]。局部卷积也被分成多个子卷积。最后三个片段依次用一个信道方向的时间子卷积层和另一个空间子卷积层进行处理。每一个参数只有原来的1/4。此外,在相邻的两个片段之间增加了剩余连接,将模块从并行结构转换为层次级联结构。

  1. 在这个模块中,不同的片段有不同的感受野。例如,第一片段X_{1}^{o}的输出与输入片段X_{1}相同,因此其感受野为1×1×1。通过将先前片段的信息串联起来,最后一个片段X_{4}^{o}的等效感受野扩大了三倍。最后,采用一种简单的级联策略来组合多个输出。

在这里插入图片描述

  1. 得到的输出特征Xo涉及捕捉不同时间范围的时空表示。它优于典型方法中使用单个局部卷积得到的局部时间表示。

在这里插入图片描述

2.2.1.Res2Net

MTA模块受到Res2Net的启发。下面简单看一下Res2Net模型。它的模型结构如下图:

在这里插入图片描述

我们在更细粒度上提高了CNNs的多尺度表示能力。为了实现这一目标,我们使用一组w个通道,较小的滤波器组取代 n个通道大小为3×3 的滤波器(不失一般性,我们使用n = s×w),如图2所示,这些较小的滤波器组连接在一个分层类残差网络中来增加输出特性可以代表的尺度。具体来说,我们将输入特征映射划分为几个组。一组滤波器首先从一组输入特征映射中提取特征。然后,将前一组的输出特性与另一组输入特性映射一起发送到下一组滤波器。这个过程重复几次,直到处理完所有的输入特征映射。最后,将所有组的feature map连接起来,发送到另一组1×1的滤波器中,将所有信息融合在一起。随着输入特征转化为输出特征的任何可能路径的出现,当经过3×3滤波器时,等效感受野就会增大,由于组合效应导致了许多等效的特征尺度。

MTA模块根据Res2Net将图中3×3 CNN的卷积换成3D的卷积核,考虑到使用3D卷积会产生大量的参数以及对算力的要求。于是将3D卷积核替换为(2+1)D的这种形式。

2.2.2.R(2+1)D

R(2+1)D结构如下图所示:
在这里插入图片描述

单独用一个t×1×1的卷积核来融合时间维度上的信息。这个分解的好处,第一就是两个子卷积之间多出来一个非线性操作,和原来同样参数量的3维卷积相比double了非线性操作,给网络扩容。第二个好处就是时空分解让优化的过程也分解开来,事实上之前发现,3维时空卷积把空间信息和动态信息拧巴在一起,不容易优化。2+1维卷积更容易优化,loss更低。但是如果叠加过多的R(2+1)D结构也会造成训练困难的问题。

3.消融实验

论文中可以学习大佬是如何做消融实验的。

文中为了证明ME和MTA模块的有效性,在不损失通用性的前提下,模型在Something V1训练集中用8帧进行训练,并在验证集上进行评估。为了进行比较,考虑了六个基线网络,其相应的块如图4所示。比较结果,包括分类精度和推理协议,如表1所示:

在这里插入图片描述

  • (2+1)D ResNet。在标准ResNet块的剩余分支中,在第一个2D空间卷积之后插入一维信道时间卷积。
  • (2+1)D Res2Net。信道方向的时间卷积被集成到Res2Net块中[10]。在Res2Net中,ResNet块的3×3空间卷积变形为一组子卷积。
  • Multiple Temporal Aggregation (MTA)。将运动激励模块从所提出的TEA网络中移除。
  • Motion Excitation(ME)。与(2+1)D ResNet 基准相比,在剩余路径中增加了运动激励模块。
  • (2+1)D SENet。SE模块[19,18]取代了ME基线中的运动激励模块。SE模块利用两个完全连接的层从原始特征中产生调制权重,然后应用所获得的权重来重新缩放特征。
  • ME w/o Residual。将剩余连接从ME基准中移除。因此,通过直接将输入特征与运动敏感权重相乘来获得输出特征,即在这里插入图片描述

得到的结果是:

在这里插入图片描述

3.1.Effect of Multiple Temporal Aggregation.

  1. Multiple Temporal Aggregation (MTA)与(2+1)D ResNet得到的结果进行比较。结果是(47.5%对46.0%)。体现了利用层次结构来扩大各块中时间维度的等效接收域,可以在MTA模块中构造出能够实现的长距离时间聚集,从而提高了性能。
  2. (2+1)D ResNet与(2+1)D Res2Net比较。考虑到提出的MTA模块变相的增大了空间和时间的感受野,因此有必要确定这两个方面的独立影响,为此提出了这一次的消融实验。在(2+1)D Res2Net中,只将子卷积组应用于空间维,且时间维的等效接收场不变。结果表明,两条基线的准确度相似,均低于MTA(46.0%/46.2%,47.5%)。这体现了MTA模块对时间信息聚集的能力。

3.2.Effect of Motion Modeling.

  1. Motion Excitation(ME)与(2+1)D ResNet比较。在表1的第二部分中,我们可以看到,考虑到运动编码,动作识别性能显著提高(48.1%对46.0%)。运动敏感特征的发现将迫使网络关注反映实际行动的动态信息。
  2. (2+1)D SENet与(2+1)D ResNet比较。因为加入ME模块引入了额外的参数和软注意力机制,为了证明不是因为引入了这些,提出了这次的消融实验。(2+1)D SENet在主干道的起始处加入SE块,以激发信息特征通道。然而,SE块独立地应用于视频的每一帧,并且不考虑时间信息。因此,(2+1)D SENet基线的性能与(2+1)D ResNet基线的性能相似(46.5%对46.0%)。改进是相当有限的。证实了ME模块有将相邻时间维度信息融合的能力。
  3. Motion Excitation(ME)与ME w/o残差基线比较。可以看出,在没有残留连接的情况下,性能从48.1%下降到47.2%,因为在没有残留连接的情况下,与静态信息相关的背景场景将被消除。结果表明,场景信息对动作识别也有一定的帮助,运动激励模块需要残差连接。
  4. Motion Excitation(ME)与STM比较。我们可以看到ME比STM有更高的精确度(48.4%比47.5%)这证明了本文方法中使用的激发机制优于STM中使用的简单加法方法。

通过引入MTA模块来考虑长程时间关系,我们的方法(TEA)的准确度可以进一步提高到48.9%。

4.Comparisons with the State-of-the-arts

在本节中,我们首先将TEA与现有最先进的动作识别方法(V1和Kinetics400数据集)进行比较。综合统计,包括分类结果、推理协议和相应的FLOPs,如下图所示:

在这里插入图片描述

第一个部分包含基于3D CNNs或2D和3D CNNs混合的方法,第二个部分中的方法都基于2D或(2+1)D CNNs。在现有的所有方法中,效率最高的是TSN8f[44]和TSM8f[27],只有33G的FLOPs。与这些方法相比,我们提出的TEA网络的浮点运算量略有增加,达到35G (1.06倍),但性能有很大提高,相对提高了5.4 % (48.8%对43.4%)。

在这里插入图片描述

在Kinetics400上,我们的方法(76.1%)的性能不如SlowFast[7](79.8%)。然而,慢速网络采用基于3D-CNNs的深层网络(ResNet101),并利用耗时的非本地[45]操作。当比较效率相似的方法时,如TSM[27]和STM[22],TEA获得了更好的性能。当采用8帧输入时,TEA比TSM提高了1%的准确率(75.0%比74.1%)。在使用16个输入帧的情况下,我们的TEA方法比TSM16f和STM 16f有更大的优势(76.1%对74.7%/73.7%)。

最后,在表4中报告了HMDB51和UCF101的比较结果。TEA在HMDB51上达到73.3%,在UCF101上达到96.9%。模型(TEA16f)的性能优于除I3D外的大多数现有方法[3]。I3D是基于3D-CNNs和附加的输入形式,因此,它的计算FLOPs将远远超TEA的。

最后,在表4中报告了HMDB51和UCF101的比较结果。TEA在HMDB51上达到73.3%,在UCF101上达到96.9%。模型(TEA16f)的性能优于除I3D外的大多数现有方法[3]。I3D是基于3D-CNNs和附加的输入形式,因此,它的计算FLOPs将远远超TEA的。

在这里插入图片描述

这篇关于TEA论文阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/430277

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st