cotracker_速读

本文主要是介绍cotracker_速读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

CoTracker: It is Better to Track Together

https://arxiv.org/abs/2307.07635
https://github.com/facebookresearch/co-tracker

abstract

这篇文章介绍了一种名为CoTracker的创新性密集点跟踪器，旨在提高视频跟踪的性能。CoTracker利用不同轨迹之间的相关性，实现出色的长期跟踪性能。该跟踪器能够在单个GPU上同时跟踪70k个点，是视频跟踪领域的重要突破。文章还讨论了CoTracker与现有最先进方法的区别，介绍了其引入的技术创新以及如何提高跟踪的准确性和稳健性。

contribution

本文的主要创新点包括：

CoTracker支持同时跟踪大量轨迹，利用轨迹之间的相关性提高跟踪性能。
引入了虚拟轨迹的概念，使CoTracker能够同时跟踪70k个点，提高了跟踪的效率。
CoTracker采用滑动窗口方式操作，支持在线任务，并通过在较长视频序列上展开窗口进行训练，显著改善了长期跟踪性能。

related work

本文的相关工作主要包括以下几个方面：

光流估计：传统方法通过研究颜色恒定方程来估计密集瞬时运动，而现代方法采用深度学习，如FlowNet和DCFlow。最近的工作如RAFT引入了增量流更新，启发了后续工作。本文将4D成本体积和迭代更新应用于跟踪问题。
Transformer在光流问题中的应用：Flowformer和GMFlow等工作将Transformer应用于光流问题，提出了基于Transformer的方法来处理4D成本体积。
其他跟踪器：TAPIR和PIPs++等现代跟踪器采用现代架构，能够在遮挡情况下跟踪点，但仍然独立建模轨迹。本文通过引入CoTracker，支持同时估计大量轨迹，取得了显著的性能提升。

method

本文方法的步骤如下：

初始化轨迹：在滑动窗口内，使用查询点初始化轨迹。网络逐步通过迭代应用Transformer来改进这些初始估计。
轨迹更新：每个重叠的窗口从前一个窗口的改进预测开始，并更新新帧的轨迹。未初始化的点在当前滑动窗口中被屏蔽，允许从视频的任何点初始化轨迹，包括在窗口中间，并将窗口连接在一起。
训练网络：通过展开多个滑动窗口来训练网络，CoTracker实现了出色的长期跟踪性能。
Transformer设计：CoTracker的网络是一个Transformer，在二维令牌表示上以滑动窗口方式运行，其中维度是时间和被跟踪的点集。通过适当的自注意力操作符，Transformer可以在窗口的持续时间内将每个轨迹视为一个整体，并在轨迹之间交换信息，从而利用它们的相关性。
虚拟轨迹：当跟踪大量点时，CoTracker在其Transformer设计中引入了少量代表性虚拟轨迹令牌，从昂贵的虚拟轨迹之间的自注意力切换到后者与真实轨迹之间的交叉注意力。这样，CoTracker可以在单个GPU上联合跟踪近密集的轨迹集合。

通过这些步骤，CoTracker实现了在视频序列中联合跟踪大量点，并利用轨迹之间的相关性来提高跟踪性能。

experiments

本文在标准的真实和合成跟踪基准测试上对CoTracker进行了全面评估，以评估其在困难条件下的性能和泛化特性，以及与众多最先进跟踪器的比较。

实验包括以下几个方面：

单目标轨迹：为了确保评估公平性，采用了“单目标轨迹”协议，每次跟踪一个基准点，但自动添加额外的支持点以允许模型进行联合跟踪。通过比较不同支持轨迹配置，可以更好地量化联合跟踪的重要性。
数据集和评估协议：使用TAP-Vid数据集，包括三个真实数据集用于评估和一个合成数据集用于训练。合成数据集TAP-Vid-Kubric由Kubric引擎生成，包含24帧序列，展示了3D刚体物体受重力作用下落和弹跳的情况。
支持点配置：实验尝试不同类型的支持点配置，如“全局”策略和“局部”策略，以及使用SIFT检测器选择支持点。这些配置仅在推断时考虑，用于提高对目标点的跟踪准确性。

通过这些实验，作者全面评估了CoTracker在各种条件下的性能表现，并展示了其在跟踪任务中的优越性能。