Video Modeling with Correlation Networks 阅读

2024-03-18 11:08

本文主要是介绍Video Modeling with Correlation Networks 阅读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 一.论文背景及方法
    • 1.背景
    • 2.方法
  • 二.相关算子(Correlation Operator)
    • 1.不可学习的相关算子
    • 2.可学习的相关算子
    • 3.分组的相关算子
    • 4.从视频clip角度看相关算子
  • 三.相关网络
  • 四.小结

本文阅读之前,建议先简要看一遍 FlowNet 和 R(2+1)D

一.论文背景及方法

1.背景

motion是识别视频中动作的重要线索,当前的动作识别模型一般使用两种方法:

  1. 通过光流的输入,来显式的运用时间信息,或者说是运动信息,比如著名的two-stream网络
  2. 通过使用能够同时获取时间和外观信息的3D 卷积filter来进行操作

第一种方式的缺陷有

  • 不是完全end-to-end的视频分析,需要离线计算光流,计算光流比较耗时,没法达到实时
  • 解决的是short-term 视频分析,没法有效的解决long-term 视频分析

第二种方式的缺陷是3D卷积网络的参数更多,更难训练。

但是以上两种方法均有缺陷,故本文提出一种新方法,替代方法是可学习的相关算子(learnable correlation operator)。

2.方法

本文的相关网络包含有可学习的相关算子(learnable correlation operator),其作用是在不同网络层的卷积feature map建立相关关系(此处指的是相邻的卷积特征),在得到时间信息的同时,与一般的二维卷积得到的特征相结合,最终在四个动作识别基准(Kinetics, Something-Something, Diving48 and Sports1M)上表现出色,论文中提供一种思路:将可学习的相关算子与其他算子一起使用,建立新的体系结构,以达到SOTA结果。

与3D卷积相比,将外观和运动的计算分解,并学习不同的filter,以获取不同的patch的相似性,在视频建模方面更具有优势。
与two-stream网络相比,也可以显示地运用时间信息,但训练速度更快,two-stream网络只在后期进行时空的融合,本论文所提出的可以在整个网络中集成外观和时间信息。

二.相关算子(Correlation Operator)

在这里插入图片描述

1.不可学习的相关算子

这是一种基本的相关算子。出自FLowNet,但在FLowNet中,相关算子是不可学习的,并且仅使用了一次。下面直接用公式说明计算过程
在这里插入图片描述
结合上面的图1a,对此计算方式作简要介绍,首先将image A和imageB 看作两个三维的tensor,大小为 C ∗ H ∗ W C*H*W CHW , imageB中的一个patch为 P B ( i , j ) P^B(i,j) PB(i,j), imageA中的一个patch为 P A ( i ′ , j ′ ) P^A(i',j') PA(ij),为了便于计算,将每个patch缩小到一个像素,然后按照对应通道进行相乘,将所有乘积加起来,再除C(目的是标准化),就得到了其中的一个数值。 ( i ′ , j ′ ) (i',j') (ij)是被限制在 ( i , j ) (i,j) (ij)的 K * K邻域,图1a中所示,K=3。最后的输出S的大小为 K ∗ K ∗ H ∗ W K*K*H*W KKHW, K * K被作为通道,可以看成 K 2 ∗ H ∗ W K^2*H*W K2HW.

2.可学习的相关算子

原始的相关算子不包括可学习的参数,因此就其可生成的表示类型而言,是相当有限的。因此在其中加入一个可学习的filter,如图1(b)所示。动机是学习在匹配过程中选择信息通道。为了实现这一目标,在点积计算公式1中引入了权重向量: W c ∗ P c B ( i , j ) ∗ P c A ( i ′ , j ′ ) W_c ∗ P^B_c(i,j)∗P^A_c(i',j') WcPcBijPcAij
K表示匹配两个patch时的最大位移,较大的K值可以覆盖较大的区域并获得更多的信息,不利的一面是,计算成本呈K2增长。在此可以使用膨胀卷积,例如,用一个膨胀因子D=2来设置K=7,以覆盖13×13像素的区域。

3.分组的相关算子

相关算子将特征从 C * H* W 转换为 K2 * H* W。在流行的 cnn 中,C可以大于 K2的一到两个数量级,这意味着相关算子可能会导致通道维数的大幅度减少。本文想要设计一个基于相关算子的网络并重复应用,它将显著降低通道的维数,并降低学习特征的表示能力,这是非常不利的。
因此本文采用了分组的相关算子,如图1(c)所示,在保持效率的同时减少了通道数量,借鉴于分组卷积,利用这一思想,将所有通道分成G个组,就相当于每组g=C/G,在每组内分别计算,最后所有组的输出叠加在一起,输出的大小为 G ∗ K ∗ K ∗ H ∗ W G*K*K*H*W GKKHW,通道数为K2G。

4.从视频clip角度看相关算子

将其应用于视频分类,其中输入是一个L个的视频帧序列。通过计算输入序列中每对相邻帧的相关性,将该算子扩展到视频。因为相邻帧对的数量是L− 1,除了相邻帧对的相关外,还额外计算第一帧的自相关,如图1(d)所示。
在这里插入图片描述
相关算子目的是捕获相邻帧之间的信息。相关算子为视频分类提供了一种建模时间信息的方法,比流行的3D卷积具有更少的参数和FLOPs,如表1所示。

三.相关网络

上文提到,相关算子是提供建模时间信息的方法,因此他必须和其他能够捕获外观信息的operator结合起来使用,本文使用R(2+1)D作为backbone。
R(2+1)D是将3D卷积转变为2D的空间卷积和1D的时间卷积,具体来说,原来是(3* 3* 3),现在将其转变为(1* 3* 3)和(3* 1* 1)
在这里插入图片描述
在A Closer Look at Spatiotemporal Convolutions for Action Recognition论文中说明,原来是Ni 个Ni−1 ×t ×d ×d 的3D卷积,转变为Mi个Ni−1 ×1 ×d ×d 的2D空间卷积和Ni个Mi×t ×1 ×1的1D时间卷积,其中Mi的计算方式为
在这里插入图片描述
这样选择出来的Mi,使得(2+1)D中的参数数量大约等于全3D卷积的参数数量。
将相关算子加入到R(2+1)D,在此,提出两种类型的模块
第一种是correlation-sum,设计思路与bottleneck block类似,在开始和结束都加入1×1×1 大小的卷积,并且使用残差连接。第二种是correlation-concat,在块内有两个分支: 一个分支带有相关算子,另一个分支通过1 × 1 × 1的卷积,最后两个分支的输出通过通道维度结合在一起,具体如图所示
在这里插入图片描述
最后,将该模块插入R(2+1)D中得到最终的网络结构,在表2的res2、res3和res4之后插入一个模块,res5忽略不用
在这里插入图片描述

四.小结

  • 提出了一种可学习的相关算子,利用膨胀和分组,计算效率高
  • 将相关算子加入到R(2+1)D中,集成运动和外观信息
  • 在不采用光流的情况下,达到了SOTA的表现

这篇关于Video Modeling with Correlation Networks 阅读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/822148

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

Apple quietly slips WebRTC audio, video into Safari's WebKit spec

转自:http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-into-safaris-webkit-spec/?from=timeline&isappinstalled=0 http://www.zdnet.com/article/apple-quietly-slips-webrtc-audio-video-

UML- 统一建模语言(Unified Modeling Language)创建项目的序列图及类图

陈科肇 ============= 1.主要模型 在UML系统开发中有三个主要的模型: 功能模型:从用户的角度展示系统的功能,包括用例图。 对象模型:采用对象、属性、操作、关联等概念展示系统的结构和基础,包括类图、对象图、包图。 动态模型:展现系统的内部行为。 包括序列图、活动图、状态图。 因为要创建个人空间项目并不是一个很大的项目,我这里只须关注两种图的创建就可以了,而在开始创建UML图

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st

MonoHuman: Animatable Human Neural Field from Monocular Video 翻译

MonoHuman:来自单目视频的可动画人类神经场 摘要。利用自由视图控制来动画化虚拟化身对于诸如虚拟现实和数字娱乐之类的各种应用来说是至关重要的。已有的研究试图利用神经辐射场(NeRF)的表征能力从单目视频中重建人体。最近的工作提出将变形网络移植到NeRF中,以进一步模拟人类神经场的动力学,从而动画化逼真的人类运动。然而,这种流水线要么依赖于姿态相关的表示,要么由于帧无关的优化而缺乏运动一致性

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

HumanNeRF:Free-viewpoint Rendering of Moving People from Monocular Video 翻译

HumanNeRF:单目视频中运动人物的自由视点绘制 引言。我们介绍了一种自由视点渲染方法- HumanNeRF -它适用于一个给定的单眼视频ofa人类执行复杂的身体运动,例如,从YouTube的视频。我们的方法可以在任何帧暂停视频,并从任意新的摄像机视点或甚至针对该特定帧和身体姿势的完整360度摄像机路径渲染主体。这项任务特别具有挑战性,因为它需要合成身体的照片级真实感细节,如从输入视频中可能

你读文献的方式可能错了!掌握这些技巧,让阅读事半功倍!

我是娜姐 @迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 科研新手如何精读一篇论文? 很多科研新手,一上来就疯狂下载几十上百篇文献。囫囵吞枣看完了,还是什么都不知道,大脑一片空白。究竟该如何读文献收获最大? 大佬说,要积极阅读、频繁阅读。 什么是积极阅读? 相比被动阅读,积极阅读是指在阅读之前准备好问题、设置阅读目标、保持批判性,收获更多、进步更大的一种阅读