VisEvent: Reliable Object Tracking via Collaboration of Frame and Event Flows论文笔记

本文主要是介绍VisEvent: Reliable Object Tracking via Collaboration of Frame and Event Flows论文笔记，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

因为不是做跟踪的，大致读了下这篇文章，主要是看了是如何将事件相机和rgb相机数据做多模态融合的，为之后的工作找点灵感

项目地址：https://sites.google.com/view/viseventtrack/

一.论文贡献

1：提出了一个包含820个可见事件视频的大规模神经形态跟踪数据集。这是第一个从真实世界收集的用于单目标跟踪的大规模可视事件基准数据集。

2.提出了一种简单而有效的基线跟踪器，通过开发一个跨模态转换模块，可以充分利用不同模态的独特信息进行鲁棒跟踪。这是首次验证跨模态变换在可视事件跟踪问题中的成功应用。

3.我们构建了多个基于双模态的跟踪器（超过35个），以便在未来的工作中比较各种跟踪管道（例如，基于相关滤波器的跟踪器、基于二进制分类的跟踪器和基于连体匹配的跟踪器）和融合策略（例如，早期、中期和后期融合）。

二.Input Representation

因为不太了解注意力机制，所以首先从网上学习了一下什么是注意力机制（深度学习之注意力机制（Attention Mechanism）和Seq2Seq - Luv_GEM - 博客园）：

键值对注意力模式

一般的，可以用键值对（key-value pair）来表示输入信息，那么N个输入信息就可以表示为（K, V）= [(k1,v1),(k2,v2),...,(kN,vN)]，其中“键”用来计算注意分布σi，“值”用来计算聚合信息。

那么就可以将注意力机制看做是一种软寻址操作：把输入信息X看做是存储器中存储的内容，元素由地址Key（键）和值Value组成，当前有个Key=Query的查询，目标是取出存储器中对应的Value值，即Attention值。而在软寻址中，并非需要硬性满足Key=Query的条件来取出存储信息，而是通过计算Query与存储器内元素的地址Key的相似度来决定，从对应的元素Value中取出多少内容。每个地址Key对应的Value值都会被抽取内容出来，然后求和，这就相当于由Query与Key的相似性来计算每个Value值的权重，然后对Value值进行加权求和。加权求和得到最终的Value值，也就是Attention值。

如下图所示，以上的计算可以归纳为三个过程：

第一步：根据Query和Key计算二者的相似度。可以用上面所列出的加性模型、点积模型或余弦相似度来计算，得到注意力得分si