【视频算法解析三】ECO

2024-01-08 12:38
文章标签 算法 视频 解析 eco

本文主要是介绍【视频算法解析三】ECO,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

[视频算法解析一] C3D算法

[视频算法解析二] I3D算法

[视频算法解析三] ECO算法

介绍

有两个较为重要的原则:

1.单帧做action recognition效果已经很棒了,附近的帧同时抽取就会带来一定的冗余。所以这里只用2D卷积来抽取单帧的特征。

2.要捕获遥远的帧之间的语境关系,简单得对于分数聚合是不足够的。所以,喂了间隔较远的帧到3D网络中去提取上下文的时间方面的信息。

由于聚合的部分,只取了一部分帧,所以这里处理速度较快。除此之外,ECO提供了一种在线视频理解的可能,先快速对于动作识别,在这之后用长期的feature来进行修正。ECO在action recognition和video captioning的task上进行评估。

长期的时空架构

将视频间隔的分为N片段,等长,随机从这些片段抽一帧,过2D抽取特征的网络,这些网络是共享权重的。随机选取的好处是在训练中带来了多样性以及使网络更加适应动作不同的初始化。作者也考虑过不同的分割视频的方式,通过衡量帧的内容来分割,但是这种方式,需要计算出帧的特征,比较耗时,同时这种方式带来的收益是有限的。后面就将这些随机选取帧的feature叠加在一起送入3D网络,做最后的action分类。这种结构也被作者成为ECO lite。

ECO Lite and ECO Full

作者指出如果只能从其静态内容中识别动作,会浪费送到3D卷积这一部分的容量,这一部分是为了识别帧之间的关系。

ECO full的版本把所有帧的特征pooling和过了3D的拼接在一起。

网络细节 

2D-Net:使用得是Inceptionv2 (BN-Inception)(layer3之前)来提取特征,每一个单帧的图片提取了之后有96channel的28*28size的feature。

3D-Net:这里3Dnet使用的是3D-Resnet18,输出是one-hot vector用于分类的。

2D-NetS:用的2D-Net inceptionv2 layer4后面的,然后做平均池化输出1024维的特征。

测试过程

在测试得时候,ECO只前向传播一次计算结果,不同于TSN/ARTNet需要对于测试数据源做数据增强,在求平均的计算过程,节省了很多的计算资源。

可以看到ECO的inference speed是其他经典方法的几十到几百倍,在保证acc差不多的情况下。 

这篇关于【视频算法解析三】ECO的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/583483

相关文章

Redis 内存淘汰策略深度解析(最新推荐)

《Redis内存淘汰策略深度解析(最新推荐)》本文详细探讨了Redis的内存淘汰策略、实现原理、适用场景及最佳实践,介绍了八种内存淘汰策略,包括noeviction、LRU、LFU、TTL、Rand... 目录一、 内存淘汰策略概述二、内存淘汰策略详解2.1 ​noeviction(不淘汰)​2.2 ​LR

IDEA与JDK、Maven安装配置完整步骤解析

《IDEA与JDK、Maven安装配置完整步骤解析》:本文主要介绍如何安装和配置IDE(IntelliJIDEA),包括IDE的安装步骤、JDK的下载与配置、Maven的安装与配置,以及如何在I... 目录1. IDE安装步骤2.配置操作步骤3. JDK配置下载JDK配置JDK环境变量4. Maven配置下

Python中配置文件的全面解析与使用

《Python中配置文件的全面解析与使用》在Python开发中,配置文件扮演着举足轻重的角色,它们允许开发者在不修改代码的情况下调整应用程序的行为,下面我们就来看看常见Python配置文件格式的使用吧... 目录一、INI配置文件二、YAML配置文件三、jsON配置文件四、TOML配置文件五、XML配置文件

Spring中@Lazy注解的使用技巧与实例解析

《Spring中@Lazy注解的使用技巧与实例解析》@Lazy注解在Spring框架中用于延迟Bean的初始化,优化应用启动性能,它不仅适用于@Bean和@Component,还可以用于注入点,通过将... 目录一、@Lazy注解的作用(一)延迟Bean的初始化(二)与@Autowired结合使用二、实例解

golang字符串匹配算法解读

《golang字符串匹配算法解读》文章介绍了字符串匹配算法的原理,特别是Knuth-Morris-Pratt(KMP)算法,该算法通过构建模式串的前缀表来减少匹配时的不必要的字符比较,从而提高效率,在... 目录简介KMP实现代码总结简介字符串匹配算法主要用于在一个较长的文本串中查找一个较短的字符串(称为

通俗易懂的Java常见限流算法具体实现

《通俗易懂的Java常见限流算法具体实现》:本文主要介绍Java常见限流算法具体实现的相关资料,包括漏桶算法、令牌桶算法、Nginx限流和Redis+Lua限流的实现原理和具体步骤,并比较了它们的... 目录一、漏桶算法1.漏桶算法的思想和原理2.具体实现二、令牌桶算法1.令牌桶算法流程:2.具体实现2.1

Java如何获取视频文件的视频时长

《Java如何获取视频文件的视频时长》文章介绍了如何使用Java获取视频文件的视频时长,包括导入maven依赖和代码案例,同时,也讨论了在运行过程中遇到的SLF4J加载问题,并给出了解决方案... 目录Java获取视频文件的视频时长1、导入maven依赖2、代码案例3、SLF4J: Failed to lo

C语言中自动与强制转换全解析

《C语言中自动与强制转换全解析》在编写C程序时,类型转换是确保数据正确性和一致性的关键环节,无论是隐式转换还是显式转换,都各有特点和应用场景,本文将详细探讨C语言中的类型转换机制,帮助您更好地理解并在... 目录类型转换的重要性自动类型转换(隐式转换)强制类型转换(显式转换)常见错误与注意事项总结与建议类型

Python实现多路视频多窗口播放功能

《Python实现多路视频多窗口播放功能》这篇文章主要为大家详细介绍了Python实现多路视频多窗口播放功能的相关知识,文中的示例代码讲解详细,有需要的小伙伴可以跟随小编一起学习一下... 目录一、python实现多路视频播放功能二、代码实现三、打包代码实现总结一、python实现多路视频播放功能服务端开

Python实现视频转换为音频的方法详解

《Python实现视频转换为音频的方法详解》这篇文章主要为大家详细Python如何将视频转换为音频并将音频文件保存到特定文件夹下,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. python需求的任务2. Python代码的实现3. 代码修改的位置4. 运行结果5. 注意事项