R-C3D论文详解

2024-02-10 01:59
文章标签 详解 论文 c3d

本文主要是介绍R-C3D论文详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文链接:R-C3D: Region Convolutional 3D Network for Temporal Activity Detection
代码地址(论文提供地址):http://ai.bu.edu/r-c3d/

该论文借鉴图像物体检测中的Faster-RCNN的思想,文章采用3D卷积来获取视频的时序信息,然后通过类似Faster-RCNN的rpn层和roi层输出时间维度的boundingbox,也就是视频中待检测动作的时间段。

一、网络结构

R-C3D的网络结构如下图所示:
在这里插入图片描述

从上图可以看出,网络由三个部分组成,一个是共享的卷积层(3D ConvNet),一个是类似于Faster-RCNN的rpn层(Proposal Subnet),一个是Faster-RCNN的roi层(Classification Subnet)。下面来详解介绍一下三个结构。

1.1 3D卷积特征提取网络

这个共享的卷积层主要是用来获取时序和空间上的特征信息,网络的结构采用的是C3D的网络(用于视频分类的一个网络)。

网络的输入为RGB三通道的图像帧,输入维度为 3 × L × H × W 3\times L \times H \times W 3×L×H×W( C × T × H × W C \times T\times H \times W C×T×H×W),经过C3D网络的conv1a到conv5b后,网络输出维度变为 512 × L 8 × H 16 × W 16 512\times \frac{L}{8} \times \frac{H}{16} \times \frac{W}{16} 512×8L×16H×16W(512为网络的输出维度)。文章中输入的H、W为112,L是边长的只受限于内存或者显存大小。

1.2 Temporal Proposal Subnet

经过C3D网络可以得到维度为 512 × L 8 × H 16 × W 16 512\times \frac{L}{8} \times \frac{H}{16} \times \frac{W}{16} 512×8L×16H×16W的输出,在Proposal Subnet里面经过一个kernel size为 3 × 3 × 3 3\times 3\times 3 3×3×3的3D卷积核来增加时序维度的感受野,之后再经过一个大小为 1 × H 16 × W 16 1\times \frac{H}{16}\times\frac{W}{16} 1×16H×16W的max pooling得到维度为 512 × L 8 × 1 × 1 512\times \frac{L}{8}\times 1\times 1 512×8L×1×1的特征。

512 × L 8 × 1 × 1 512\times \frac{L}{8}\times 1\times 1 512×8L×1×1的输出特征在时序维度上,每一个时间点上都可以认为是一个anchor点,如果每个anchor点上预定义K个anchor框,那么该特征就可以获得 L 8 × K \frac{L}{8}\times K 8L×K个anchor框。将这些anchor框截取的特征输入给两个 1 × 1 × 1 1\times 1\times 1 1×1×1的卷积,可以获得两个结果,一个是对框的回归,一个是框是否为正样本的分类结果。

1.3 Activity Classification Subnet

activity classification stage包含三个主要功能:

  1. 从1.2中得到的Proposal中选取合适的Proposal
  2. 根据选择好的Proposal,利用3维的RoI pooling提取出对应的固定大小的特征
  3. 基于提取出的固定大小的特征得到动作的类别和回归出更精确的动作边界

1.3.1 Proposal的选择

经过Temporal Proposal Subnet阶段后,可以得到大量的Proposal,类似于faster rcnn,利用nms筛选出高质量的Proposal,nms的阈值定位0.7。

1.3.2 3D RoI Pooling

经过nms筛选出的Proposal,可以在3D卷积得到的特征(特征维度为 512 × L 8 × H 16 × W 16 512\times \frac{L}{8} \times \frac{H}{16} \times \frac{W}{16} 512×8L×16H×16W)中截取对应的特征区域,类似于faster rcnn的RoI pooling,文章使用3D RoI pooling,文章pooling将时序维度、H维度、W维度分别划分为1、4、4,所以经过Proposal的截取得到维度为 512 × l p × 7 × 7 512\times l_p \times 7 \times 7 512×lp×7×7的特征,再经过3D RoI pooling后输出维度为 512 × 1 × 4 × 4 512\times 1\times 4\times 4 512×1×4×4的特征。

1.3.3 输出动作类别与边界

在经过3D RoI pooling后输出维度为 512 × 1 × 4 × 4 512\times 1\times 4\times 4 512×1×4×4的特征,输入两个全连接层,然后分别送入两个全连接,一个用于分类一个用于回归。

二、训练阶段的设置

对于Temporal Proposal Subnet中正负样本的定义如下

  1. 与gt的IoU大于0.7的anchor segment定义为正样本
  2. 与某个gt的IoU是最大的,该anchor segment为正样本
  3. anchor与所有gt的IoU都小于0.3那么该anchor为负样本
  4. 其它anchor不参与训练
    该阶段正负样本控制在1:1进行网络的训练。

对于 Activity Classification Subnet中正负样本定义如下

  1. 某个Proposal与某个gt的IoU最大,且IoU大于0.5则该Proposal为正样本
  2. 某个Proposal与所有的gt的IoU都小于0.5,则该Proposal为负样本
    该阶段正负样本控制在1:3进行网络训练。
三、推断阶段的设置
  1. 首先经过Temporal Proposal Subnet,对anchor进行边界回归和正负样本的判断,这样就得到了大量的Proposal
  2. 得到的Proposal经过阈值为0.7的nms得到质量好的Proposal
  3. 根据高质量的Proposal截取对应范围的特征,送入Activity Classification Subnet,得到时序检测框和对应的类别
  4. 将得到的检测框经过阈值为0.1的nms得到最终的结果
四、loss计算

loss的计算和fasterrcnn也是很类似的,无论是emporal Proposal Subnet还是Activity Classification Subnet,分类采用softmax loss, 回归采用smooth l1 loss。同fasterrcnn回归loss根据训练的数量加入了一下权重的操作,用公式表示如下:
L o s s = 1 N c l s ∑ i L c l s ( a i , a i ∗ ) + λ 1 N r e g ∑ i a i ∗ L r e g ( t i , t i ∗ ) Loss = \frac{1}{N_{cls}}\sum_{i}L_{cls}(a_i, a^{*}_i)+\lambda\frac{1}{N_{reg}}\sum_{i}a^{*}_i L_{reg}(t_i, t^{*}_i) Loss=Ncls1iLcls(ai,ai)+λNreg1iaiLreg(ti,ti)
其中 N c l s N_{cls} Ncls表示训练的batchsize, N r e g N_{reg} Nreg表示anchor或者Proposal的数量,且只有anchor或者Proposal为正样本时才计算回归的loss值。回归也是回归一个片段的中心点位置的 δ \delta δ和片段长度的 δ \delta δ值,如下式表示
δ c i = ( c i ∗ − c i ) / l i ) \delta c_i = (c^{*}_i - c_i)/l_i) δci=(cici)/li)
δ l i = l o g ( l i ∗ ) / l i ) \delta l_i = log(l^{*}_i)/l_i) δli=log(li)/li)
上式中, c i c_i ci l i l_i li分别代表anchor或Proposal的中心和时长, c i ∗ c^{*}_i ci l i ∗ l^{*}_i li代表gt的中心和时长

视频算法交流qq群:657626967

这篇关于R-C3D论文详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/695855

相关文章

Java中注解与元数据示例详解

《Java中注解与元数据示例详解》Java注解和元数据是编程中重要的概念,用于描述程序元素的属性和用途,:本文主要介绍Java中注解与元数据的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参... 目录一、引言二、元数据的概念2.1 定义2.2 作用三、Java 注解的基础3.1 注解的定义3.2 内

JavaScript中的isTrusted属性及其应用场景详解

《JavaScript中的isTrusted属性及其应用场景详解》在现代Web开发中,JavaScript是构建交互式应用的核心语言,随着前端技术的不断发展,开发者需要处理越来越多的复杂场景,例如事件... 目录引言一、问题背景二、isTrusted 属性的来源与作用1. isTrusted 的定义2. 为

使用Python实现操作mongodb详解

《使用Python实现操作mongodb详解》这篇文章主要为大家详细介绍了使用Python实现操作mongodb的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、示例二、常用指令三、遇到的问题一、示例from pymongo import MongoClientf

一文详解Python中数据清洗与处理的常用方法

《一文详解Python中数据清洗与处理的常用方法》在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战,本文总结了多种数据清洗与处理方法,文中的示例代码简洁易懂,有需要的小伙伴可以参考下... 目录缺失值处理重复值处理异常值处理数据类型转换文本清洗数据分组统计数据分箱数据标准化在数据处理与分析过

详解如何在React中执行条件渲染

《详解如何在React中执行条件渲染》在现代Web开发中,React作为一种流行的JavaScript库,为开发者提供了一种高效构建用户界面的方式,条件渲染是React中的一个关键概念,本文将深入探讨... 目录引言什么是条件渲染?基础示例使用逻辑与运算符(&&)使用条件语句列表中的条件渲染总结引言在现代

详解Vue如何使用xlsx库导出Excel文件

《详解Vue如何使用xlsx库导出Excel文件》第三方库xlsx提供了强大的功能来处理Excel文件,它可以简化导出Excel文件这个过程,本文将为大家详细介绍一下它的具体使用,需要的小伙伴可以了解... 目录1. 安装依赖2. 创建vue组件3. 解释代码在Vue.js项目中导出Excel文件,使用第三

SQL注入漏洞扫描之sqlmap详解

《SQL注入漏洞扫描之sqlmap详解》SQLMap是一款自动执行SQL注入的审计工具,支持多种SQL注入技术,包括布尔型盲注、时间型盲注、报错型注入、联合查询注入和堆叠查询注入... 目录what支持类型how---less-1为例1.检测网站是否存在sql注入漏洞的注入点2.列举可用数据库3.列举数据库

Linux之软件包管理器yum详解

《Linux之软件包管理器yum详解》文章介绍了现代类Unix操作系统中软件包管理和包存储库的工作原理,以及如何使用包管理器如yum来安装、更新和卸载软件,文章还介绍了如何配置yum源,更新系统软件包... 目录软件包yumyum语法yum常用命令yum源配置文件介绍更新yum源查看已经安装软件的方法总结软

java图像识别工具类(ImageRecognitionUtils)使用实例详解

《java图像识别工具类(ImageRecognitionUtils)使用实例详解》:本文主要介绍如何在Java中使用OpenCV进行图像识别,包括图像加载、预处理、分类、人脸检测和特征提取等步骤... 目录前言1. 图像识别的背景与作用2. 设计目标3. 项目依赖4. 设计与实现 ImageRecogni

Java访问修饰符public、private、protected及默认访问权限详解

《Java访问修饰符public、private、protected及默认访问权限详解》:本文主要介绍Java访问修饰符public、private、protected及默认访问权限的相关资料,每... 目录前言1. public 访问修饰符特点:示例:适用场景:2. private 访问修饰符特点:示例: