【论文阅读】EgoPCA: A New Framework for Egocentric Hand-Object Interaction

本文主要是介绍【论文阅读】EgoPCA: A New Framework for Egocentric Hand-Object Interaction,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文主要贡献

提出一种新的框架:Ego-HOI recognition by Probing, Curation and Adaption (EgoPCA)。构建了全面的预训练集,平衡的测试集,以及一个包含了微调策略的baseline。

在Ego-HOI达到了SOTA,并且建立了有效的机制方法。

Code and data are available here.

已有工作

Ego-HOI(Egocentric Hand-Object Interaction)

目前Transformers, visual-language models 效果较好,后续可以学习一下。

Gap:这些工作大多以第三人称视角学习,少有第一人称的。

具体地,第一人称往往仅包含手部,且存在抖动,导致已有工作能否有效迁移到下游任务还是未知数。

大多工作都是Kinetics上预训练的,这个数据集已经被证明了在自我为中心的视频上有较大gap。
为所有下游任务微调一个共享的预训练模型效率低下,也无法适应每个下游任务或基准。

HOI Understanding

EPICKITCHENS

Dima Damen, Hazel Doughty, Giovanni Maria Farinella, Sanja Fidler, Antonino Furnari, Evangelos Kazakos, Davide Moltisanti, Jonathan Munro, Toby Perrett, Will Price, et al. Scaling egocentric vision: The epic-kitchens dataset. In ECCV, 2018

EGTEA Gaze+

Yin Li, Miao Liu, and James M Rehg. In the eye of beholder: Joint learning of gaze and actions in first person video. In ECCV, 2018

2D ConvNets

Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, and Luc Van Gool. Temporal segment networks for action recognition in videos. TPAMI, 2018.

MultiStream Networks

Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, and Kaiming He. Slowfast networks for video recognition. In ICCV, 2019

3D ConvNets

Joao Carreira and Andrew Zisserman. Quo vadis, action recognition? a new model and the kinetics dataset. In CVPR, 2017

Transformer-based net

Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, and Christoph Feichtenhofer. Multiscale vision transformers. In ICCV, 2021

Video Action Recognition

Two-stream

Karen Simonyan and Andrew Zisserman. Two-stream convolutional networks for action recognition in videos. In Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K.Q. Weinberger, editors, NeurIPS, 2014

3D CNN

Joao Carreira and Andrew Zisserman. Quo vadis, action recognition? a new model and the kinetics dataset. In CVPR, 2017.

Transformer methods

CLIP

采用大规模图像文本对的对比学习,展示了出色的零样本性能。

ActionCLIP对目标数据集进行端到端微调,并表明微调对于语言和图像编码器都至关重要。

Ego-HOI Videos

Properties

测试在以下五个数据集上:EPIC-KITCHENS-100, EGTEA Gaze+, Ego4D-AR, Something-Else and our One4All-P

  1. 映射到BERT的词向量上,我们的One4All-P包含了所有的语义空间。

  2. 通过比较帧之间的密集光流量化每像素相机运动在这里插入图片描述

  3. 帧的拉普拉斯方差来衡量模糊性(Blurriness)
    在这里插入图片描述

  4. 通过 MMPose 定位手的位置并且通过 Detic 定位物体的位置
    在这里插入图片描述5.通过MMPose现成的姿势检测器定位手的位置形态
    在这里插入图片描述

量化相似性 Kernel Density Estimation (KDE)

在这里插入图片描述
选取高斯核函数,假设有对角化的协方差矩阵,且带宽是Silverman’s estimator选择的。

视频选择算法

提出了一种基于自我属性相似性的选择算法来采样额外的数据,以丰富原始视频集,从而实现平衡或更高的性能。
在这里插入图片描述
在这里插入图片描述实验结果:
在这里插入图片描述camera motion, hand location/pose, and object location 为影响较大的因素。

通过上述方法,我们可以获得均衡的预训练集和测试集。

预训练流程

在这里插入图片描述
由三个encoder构成:Lite, heavy, text

lite network captures frame-level features while the heavy network learns spatiotemporal features.
These two streams are aligned with the text feature.
在这里插入图片描述
训练步骤:

  1. 框架级lite网络使用Ego - HOI数据中的框架-文本对进行预训练。
  2. 冻结帧编码器,然后用视频-文本对预训练ATP模块(从多个帧中选择最有价值的一个)
  3. 帧编码器和ATP模块都被冻结,在我们的One4All - P数据集上联合训练lite和heavy网络。
  4. 在推理过程中,轻网络和重网络通过与类的文本嵌入的余弦相似度独立地生成预测。这两个流可以通过均值池化来组合,以产生全模型结果。

Serial Visual Scene Attention Learning (SVSA)

希望引入对于视频序列连续的注意机制,以此从其关联的观点来学习人类的意图。
从语义特征流中预测视图中心的移动。
Figure11 (b) 中也有体现

Counterfactual Reasoning for Ego-HOI

反事实因果关系研究的是事件的结果,如果事件没有实际发生,我们利用反事实学习来增强因果鲁棒性。

通过以下两种方式构造反事实的例子:
1 ) 用具有不同手部姿势或动作标签的同一视频中的帧替换整帧
2 ) 用具有不同手部姿势或动作标签的其他帧的手框替换手部区域

此外还进行了数据剪枝,来减小无用的数据(可能包含高KDE的数据)

通过消融实验,验证了SVSA和Counterfactural Reasoning 模块的意义。

这篇关于【论文阅读】EgoPCA: A New Framework for Egocentric Hand-Object Interaction的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/933886

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

Spring Framework系统框架

序号表示的是学习顺序 IoC(控制反转)/DI(依赖注入): ioc:思想上是控制反转,spring提供了一个容器,称为IOC容器,用它来充当IOC思想中的外部。 我的理解就是spring把这些对象集中管理,放在容器中,这个容器就叫Ioc这些对象统称为Bean 用对象的时候不用new,直接外部提供(bean) 当外部的对象有关系的时候,IOC给它俩绑好(DI) DI和IO

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

java线程深度解析(一)——java new 接口?匿名内部类给你答案

http://blog.csdn.net/daybreak1209/article/details/51305477 一、内部类 1、内部类初识 一般,一个类里主要包含类的方法和属性,但在Java中还提出在类中继续定义类(内部类)的概念。 内部类的定义:类的内部定义类 先来看一个实例 [html]  view plain copy pu

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin