cotracker_速读

2024-06-12 18:44
文章标签 速读 cotracker

本文主要是介绍cotracker_速读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

CoTracker: It is Better to Track Together

https://arxiv.org/abs/2307.07635
https://github.com/facebookresearch/co-tracker

abstract

这篇文章介绍了一种名为CoTracker的创新性密集点跟踪器,旨在提高视频跟踪的性能。CoTracker利用不同轨迹之间的相关性,实现出色的长期跟踪性能。该跟踪器能够在单个GPU上同时跟踪70k个点,是视频跟踪领域的重要突破。文章还讨论了CoTracker与现有最先进方法的区别,介绍了其引入的技术创新以及如何提高跟踪的准确性和稳健性。

contribution

本文的主要创新点包括:

  1. CoTracker支持同时跟踪大量轨迹,利用轨迹之间的相关性提高跟踪性能。
  2. 引入了虚拟轨迹的概念,使CoTracker能够同时跟踪70k个点,提高了跟踪的效率。
  3. CoTracker采用滑动窗口方式操作,支持在线任务,并通过在较长视频序列上展开窗口进行训练,显著改善了长期跟踪性能。

related work

本文的相关工作主要包括以下几个方面:

  1. 光流估计:传统方法通过研究颜色恒定方程来估计密集瞬时运动,而现代方法采用深度学习,如FlowNet和DCFlow。最近的工作如RAFT引入了增量流更新,启发了后续工作。本文将4D成本体积和迭代更新应用于跟踪问题。
  2. Transformer在光流问题中的应用:Flowformer和GMFlow等工作将Transformer应用于光流问题,提出了基于Transformer的方法来处理4D成本体积。
  3. 其他跟踪器:TAPIR和PIPs++等现代跟踪器采用现代架构,能够在遮挡情况下跟踪点,但仍然独立建模轨迹。本文通过引入CoTracker,支持同时估计大量轨迹,取得了显著的性能提升。

method

本文方法的步骤如下:

  1. 初始化轨迹:在滑动窗口内,使用查询点初始化轨迹。网络逐步通过迭代应用Transformer来改进这些初始估计。
  2. 轨迹更新:每个重叠的窗口从前一个窗口的改进预测开始,并更新新帧的轨迹。未初始化的点在当前滑动窗口中被屏蔽,允许从视频的任何点初始化轨迹,包括在窗口中间,并将窗口连接在一起。
  3. 训练网络:通过展开多个滑动窗口来训练网络,CoTracker实现了出色的长期跟踪性能。
  4. Transformer设计:CoTracker的网络是一个Transformer,在二维令牌表示上以滑动窗口方式运行,其中维度是时间和被跟踪的点集。通过适当的自注意力操作符,Transformer可以在窗口的持续时间内将每个轨迹视为一个整体,并在轨迹之间交换信息,从而利用它们的相关性。
  5. 虚拟轨迹:当跟踪大量点时,CoTracker在其Transformer设计中引入了少量代表性虚拟轨迹令牌,从昂贵的虚拟轨迹之间的自注意力切换到后者与真实轨迹之间的交叉注意力。这样,CoTracker可以在单个GPU上联合跟踪近密集的轨迹集合。

通过这些步骤,CoTracker实现了在视频序列中联合跟踪大量点,并利用轨迹之间的相关性来提高跟踪性能。

experiments

本文在标准的真实和合成跟踪基准测试上对CoTracker进行了全面评估,以评估其在困难条件下的性能和泛化特性,以及与众多最先进跟踪器的比较。

实验包括以下几个方面:

  1. 单目标轨迹:为了确保评估公平性,采用了“单目标轨迹”协议,每次跟踪一个基准点,但自动添加额外的支持点以允许模型进行联合跟踪。通过比较不同支持轨迹配置,可以更好地量化联合跟踪的重要性。
  2. 数据集和评估协议:使用TAP-Vid数据集,包括三个真实数据集用于评估和一个合成数据集用于训练。合成数据集TAP-Vid-Kubric由Kubric引擎生成,包含24帧序列,展示了3D刚体物体受重力作用下落和弹跳的情况。
  3. 支持点配置:实验尝试不同类型的支持点配置,如“全局”策略和“局部”策略,以及使用SIFT检测器选择支持点。这些配置仅在推断时考虑,用于提高对目标点的跟踪准确性。

通过这些实验,作者全面评估了CoTracker在各种条件下的性能表现,并展示了其在跟踪任务中的优越性能。

valuate metrics

本文实验中使用的评估指标包括:

  1. Average Jaccard (AJ):平均杰卡德指数,用于评估目标与预测边界框之间的重叠程度。
  2. Average δvis:平均可见性误差,用于评估目标在视频帧中的可见性。
  3. Overall Accuracy (OA):总体准确率,综合考虑了跟踪的准确性和稳定性。
  4. Average δ:平均误差,用于评估跟踪点的位置精度。
  5. Average δocc:平均遮挡误差,用于评估目标在视频中被遮挡时的跟踪性能。

这些评估指标帮助评估CoTracker在不同方面的跟踪性能,包括准确性、稳定性、可见性和遮挡情况下的表现。

这篇关于cotracker_速读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1055034

相关文章

论文速读|利用局部性提高机器人操作的样本效率

项目地址:SGRv2  本文提出了SGRv2,一个系统的视觉运动政策框架,通过整合动作局部性提高了样本效率。在多个模拟和真实世界环境中进行的广泛评估表明,SGRv2在数据有限的情况下表现出色,并且在不同的控制模式下保持一致的性能。未来的工作可以进一步探索将扩散政策与局部性框架结合,以增强在现实世界中的性能,并扩展泛化测试的范围。 论文初读:

论文速读|重新审视奖励设计与评估:用于强健人型机器人站立与行走控制的方法

论文地址:https://arxiv.org/pdf/2404.19173  这篇论文为类人机器人站立和行走(SaW)控制器的持续可衡量改进奠定了基础。通过引入一套定量实际基准测试方法,作者展示了现有控制器的优缺点,并通过基准测试指导新控制器的训练,最终实现了增强的控制器,成功处理了所有测试的扰动。结果表明,当前的RL控制器在能量效率和仿真到现实差距方面存在局限性。未来的工作应专注于在不牺牲

论文速读|基于手臂约束的轮腿机器人运动操控课程学习

项目地址:Arm-Constrained Curriculum Learning for Loco-Manipulation of the Wheel-Legged Robot 本文提出了一种用于轮腿机器人局部操控的强化学习框架,使它们能够在高度动态的情况下执行一系列复杂的操作任务。通过引入臂约束网络和奖励感知课程学习方法,解决了引入机械臂带来的稳定性、安全性和效率挑战。仿真和真实机器人实验

论文速读纪录 - 202408

特别鸣谢kimi,以下论文均在kimi辅助下阅读。 目录 RMIB: Representation Matching Information Bottleneck for Matching Text RepresentationsAttentionRank: Unsupervised keyphrase Extraction using Self and Cross AttentionsANS

论文速读|ROS-LLM:具有任务反馈和结构化推理的具身智能ROS 框架

论文地址:https://arxiv.org/pdf/2406.19741  ROS-LLM 框架旨在通过集成大型语言模型(LLM)和机器人操作系统(ROS),实现对机器人的直观编程。该框架支持通过聊天界面接收自然语言提示,并能够根据 ROS 环境中的传感器读数自动提取和执行行为。框架支持三种行为模式:序列、行为树和状态机。此外,通过模仿学习,用户可以向系统添加新的机器人动作。该研究通过实验

AI论文速读 | 2024[SIGIR]基于大语言模型的下一个兴趣点推荐

论文标题:Large Language Models for Next Point-of-Interest Recommendation 作者:Peibo Li ; Maarten de Rijke ; Hao Xue (薛昊); Shuang Ao ; Yang Song ; Flora D. Salim 机构:新南威尔士大学(UNSW),阿姆斯特丹大学(UVA) 论文链接:https:/

最新区块链论文速读--CCF A会议 ICSE 2024 共13篇 附pdf下载 (2/2)

Conference:International Conference on Software Engineering (ICSE) CCF level:CCF A Categories:Software Engineering/System Software/Programming Languages Year:2024 Num:13 第1~7篇区块链文章请点击此处查看

【论文速读】| 通过大语言模型从协议实现中推断状态机

本次分享论文:Inferring State Machine from the Protocol Implementation via Large Language Model 基本信息 原文作者:Haiyang Wei, Zhengjie Du, Haohui Huang, Yue Liu, Guang Cheng, Linzhang Wang, Bing Mao 作者单位:

最新区块链论文速读--CCF A会议 CCS 2023 共25篇 附pdf下载(3/4)

Conference:ACM Conference on Computer and Communications Security (CCS) CCF level:CCF A Categories:network and information security Year:2023 Num:25 第1~7篇区块链文章请点击此处查看 第8~13篇区块链文章请点击此处查看

【论文速读】| BIOCODER:一个具有上下文实用知识的生物信息学代码生成基准测试

本次分享论文:BIOCODER: A Benchmark for Bioinformatics Code Generation with Contextual Pragmatic Knowledge 基本信息 原文作者:Xiangru Tang, Bill Qian, Rick Gao, Jiakang Chen, Xinyun Chen, Mark Gerstein 作者单位:耶