论文阅读【Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset】

2024-02-06 10:40

本文主要是介绍论文阅读【Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

  • 发表:2017 CVPR
  • 主要贡献:(1)公开了一个大型的视频数据集,可以用于迁移学习和网络训练。(2)提出了一个新的视频动作分类模型I3D。

之前的模型

a. ConvNet+LSTM

先用CNN提取图像的空间特征,然后顺序输入LSTM中提取时序特征,最后的隐层用于动作分类。
在这里插入图片描述
ps:但是效果并不是很好,因此并不普及

b. 3D-ConvNet

将一段视频输入,用3D卷积直接学习视频的的时空特征。将二维的Conv和Pooling都换成3D的
在这里插入图片描述
ps:参数量巨大,对于小数据集难以训练,但是效果还行

c. Two-Strean

用光流信息(光的流动,即视频中目标的运动轨迹)对时序特征进行建模。左边的卷积网络的输入是一帧或多帧图像,用于学习图像的场景信息;右边的卷积网络输入是视频的光流图,用于学习物体的运动信息
在这里插入图片描述
ps:模型较简单,且容易训练,只需要提取视频的光流图然后学习到分类动作的映射即可,使用较为广泛

d. 3D-Fused Two-Stream

b和c的结合版,将c中的加权平均换成了3D ConvNet
在这里插入图片描述
总结:在数据充足的条件下,3DConv比2DConv要好很多,但是仍然会有一些东西学习得不好(可能需要额外的信息如光流图进行补充)

模型框架

在这里插入图片描述

(1)inflating

将2D的网络“膨胀”成3D,保持架构不变。网络架构统统不变,仅仅是将2D Conv换成3D Conv,2D Pooling换成3D Pooling。这样就可以直接使用之前的2D网络

(2)Bootstrapping

如何将训练好的2D模型的参数对3D模型进行初始化。基本想法是对于同样的输入,两个模型的输出应该是一致的。具体是将一张图像复制n次形成一段视频,2D的参数在时间纬度上复制n次,然后参数除以n(rescaling,用于保证输入和输出一致)

(3)模型细节

在这里插入图片描述
ps:不过现在基本上用的是Resnet

这篇关于论文阅读【Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/684055

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

java线程深度解析(一)——java new 接口?匿名内部类给你答案

http://blog.csdn.net/daybreak1209/article/details/51305477 一、内部类 1、内部类初识 一般,一个类里主要包含类的方法和属性,但在Java中还提出在类中继续定义类(内部类)的概念。 内部类的定义:类的内部定义类 先来看一个实例 [html]  view plain copy pu

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

MVC(Model-View-Controller)和MVVM(Model-View-ViewModel)

1、MVC MVC(Model-View-Controller) 是一种常用的架构模式,用于分离应用程序的逻辑、数据和展示。它通过三个核心组件(模型、视图和控制器)将应用程序的业务逻辑与用户界面隔离,促进代码的可维护性、可扩展性和模块化。在 MVC 模式中,各组件可以与多种设计模式结合使用,以增强灵活性和可维护性。以下是 MVC 各组件与常见设计模式的关系和作用: 1. Model(模型)