行为识别 - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition

本文主要是介绍行为识别 - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 0. 前言
    • 1. 要解决什么问题
    • 2. 用了什么方法
    • 3. 效果如何
    • 4. 还存在什么问题

0. 前言

  • 相关资料:
    • arxiv
    • github:可能等不到开源啦
    • 论文解读
  • 论文基本信息
    • 领域:行为识别
    • 作者单位:西安交大&腾讯
    • 发表时间:2020.3
  • 一句话总结:提出同时提取时空特征的结构,根据channel分组、分别进行时间卷积(3x1x1)和空间卷积(1x3x3)、合并结果。

1. 要解决什么问题

  • 行为识别模型要解决的就是对空间信息建模(temporal modeling)的问题……
  • 还是那些老问题:
    • 双流法耗时、占用硬盘。
    • 3D卷积计算量太大,2D卷积不能很好的对temporal建模。
  • 现在主要都是在模型准确率与模型大小之间做权衡。

2. 用了什么方法

  • 提出了Spatio-Temporal Hybrid(STH)block,用于提到普通的卷积操作。
    • STH Conv可以同时提取时间与空间信息。
  • 2D/3D/(2+1)D/STH 的结构比较
    • 这图比较抽象,感觉作者是抽象派画家
    • 毕竟是抽象画,所以可能理解不对,我猜这图的意思是介绍2D-Conv Block/3D-Conv Block/(2+1)D-Conv Block/STH Block 的基本结构。
      • 2D-Conv Block:先1*1*1卷积,再1*3*3卷积,最后1*1*1卷积。
      • 3D-Conv Block:先1*1*1卷积,再3*3*3卷积,最后1*1*1卷积。
      • (2+1)D-Conv Block:先1*1*1卷积,再1*3*3卷积,接着3*1*1卷积,最后1*1*1卷积。
      • STH Block:先1*1*1卷积,再同时进行1*3*3/3*1*1卷积,最后1*1*1卷积。
    • image_1e9ultdq3svk1h2p6ki1360i1t2d.png-215.4kB
    • 所谓的 Temporal Convolution、Spatial Convolution 在本图中有说明。
      • 输入特征图尺寸一般为 N, T, C, H, W
      • 所谓Temporal Convolution就是在T通道上进行特征融合(T通道卷积核尺寸为3,H, W通道卷积核尺寸为1)
      • 所谓Spatial Convolution就是对H, W通道进行特征融合(H, W通道卷积核尺寸为3,T通道卷积核尺寸为1)
  • STH结构介绍
    • 图中 H, W 合并为一个维度。
    • Spatio-Temporal Hybrid Convolution,翻译成中文应该是 时空混合卷积。
    • 也就是说,在一个STH block中,会将一个普通的卷积转换为若干个Temporal/Spatial Convolution,如下图中,一次普通卷积按照C通道分为4部分,分别进行Temporal/Spatial卷积操作。
    • image_1e9un2lvo1s998ae1pesf0u13ke2q.png-199kB
  • STH的实现细节
    • 上图中给出的STH结构,就是下图的(a)结构。
    • image_1e9v0ve73c0p1kc4sj11pah55j37.png-117.5kB
  • 如何融合时间、空间特征:
    • 普通直接按位加,也可以搞个注意力网络啥的。
    • image_1e9v2ngndga6c1416bc1i0j16md5r.png-77.9kB
  • STH的计算效率
    • 从FLOPs上看,STH比普通的Spatial Convolution要少一些。
    • image_1e9v1sr1k5b11jbq1slq19n1vbl3k.png-113.7kB
  • STH网络
    • image_1e9v23mne1jqgp2a1kq2d31ged5e.png-101.2kB

3. 效果如何

  • 从模型准确率看,STH与其他SOTA模型差距不大。
    image_1e9ukubp9132h1tc71lo9peo3fp16.png-158.4kB
    image_1e9ukul0pk121ptb1afi1e151col1j.png-206kB
    image_1e9ukutrc1en81t6l1qquo1c1ogm20.png-230.6kB
  • 这里比较了几个模型在1080ti上的执行效率,感觉对比TSM也没有太大优势。
    image_1e9ukoedm18vhmno4ta20j1bsi9.png-116.6kB

4. 还存在什么问题

  • 论文本身的idea挺有意思,但感觉效果好像并没有什么特别之处。

这篇关于行为识别 - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/605205

相关文章

使用Python开发一个图像标注与OCR识别工具

《使用Python开发一个图像标注与OCR识别工具》:本文主要介绍一个使用Python开发的工具,允许用户在图像上进行矩形标注,使用OCR对标注区域进行文本识别,并将结果保存为Excel文件,感兴... 目录项目简介1. 图像加载与显示2. 矩形标注3. OCR识别4. 标注的保存与加载5. 裁剪与重置图像

Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)

《Python爬虫selenium验证之中文识别点选+图片验证码案例(最新推荐)》本文介绍了如何使用Python和Selenium结合ddddocr库实现图片验证码的识别和点击功能,感兴趣的朋友一起看... 目录1.获取图片2.目标识别3.背景坐标识别3.1 ddddocr3.2 打码平台4.坐标点击5.图

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

Unable to instantiate Action, goodsTypeAction, defined for 'goodsType_findAdvanced' in namespace '/

报错: Unable to instantiate Action, goodsTypeAction,  defined for 'goodsType_findAdvanced' in namespace '/'goodsTypeAction......... Caused by: java.lang.ClassNotFoundException: goodsTypeAction.......

Clion不识别C代码或者无法跳转C语言项目怎么办?

如果是中文会显示: 此时只需要右击项目,或者你的源代码目录,将这个项目或者源码目录标记为项目源和头文件即可。 英文如下:

用ajax json给后台action传数据要注意的问题

必须要有get和set方法   1 action中定义bean变量,注意写get和set方法 2 js中写ajax方法,传json类型数据 3 配置action在struts2中

使用http-request 属性替代action绑定上传URL

在 Element UI 的 <el-upload> 组件中,如果你需要为上传的 HTTP 请求添加自定义的请求头(例如,为了通过身份验证或满足服务器端的特定要求),你不能直接在 <el-upload> 组件的属性中设置这些请求头。但是,你可以通过 http-request 属性来自定义上传的行为,包括设置请求头。 http-request 属性允许你完全控制上传的行为,包括如何构建请求、发送请

BERN2(生物医学领域)命名实体识别与命名规范化工具

BERN2: an advanced neural biomedical named entity recognition and normalization tool 《Bioinformatics》2022 1 摘要 NER和NEN:在生物医学自然语言处理中,NER和NEN是关键任务,它们使得从生物医学文献中自动提取实体(如疾病和药物)成为可能。 BERN2:BERN2是一个工具,

[论文笔记]QLoRA: Efficient Finetuning of Quantized LLMs

引言 今天带来LoRA的量化版论文笔记——QLoRA: Efficient Finetuning of Quantized LLMs 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 我们提出了QLoRA,一种高效的微调方法,它在减少内存使用的同时,能够在单个48GB GPU上对65B参数的模型进行微调,同时保持16位微调任务的完整性能。QLoRA通过一个冻结的4位量化预