本文主要是介绍VisEvent: Reliable Object Tracking via Collaboration of Frame and Event Flows论文笔记,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
因为不是做跟踪的,大致读了下这篇文章,主要是看了是如何将事件相机和rgb相机数据做多模态融合的,为之后的工作找点灵感
项目地址:https://sites.google.com/view/viseventtrack/
一.论文贡献
1:提出了一个包含820个可见事件视频的大规模神经形态跟踪数据集。这是第一个从真实世界收集的用于单目标跟踪的大规模可视事件基准数据集。
2.提出了一种简单而有效的基线跟踪器,通过开发一个跨模态转换模块,可以充分利用不同模态的独特信息进行鲁棒跟踪。这是首次验证跨模态变换在可视事件跟踪问题中的成功应用。
3.我们构建了多个基于双模态的跟踪器(超过35个),以便在未来的工作中比较各种跟踪管道(例如,基于相关滤波器的跟踪器、基于二进制分类的跟踪器和基于连体匹配的跟踪器)和融合策略(例如,早期、中期和后期融合)。
二.Input Representation
因为不太了解注意力机制,所以首先从网上学习了一下什么是注意力机制(深度学习之注意力机制(Attention Mechanism)和Seq2Seq - Luv_GEM - 博客园):
键值对注意力模式
一般的,可以用键值对(key-value pair)来表示输入信息,那么N个输入信息就可以表示为(K, V)= [(k1,v1),(k2,v2),...,(kN,vN)],其中“键”用来计算注意分布σi,“值”用来计算聚合信息。
那么就可以将注意力机制看做是一种软寻址操作:把输入信息X看做是存储器中存储的内容,元素由地址Key(键)和值Value组成,当前有个Key=Query的查询,目标是取出存储器中对应的Value值,即Attention值。而在软寻址中,并非需要硬性满足Key=Query的条件来取出存储信息,而是通过计算Query与存储器内元素的地址Key的相似度来决定,从对应的元素Value中取出多少内容。每个地址Key对应的Value值都会被抽取内容出来,然后求和,这就相当于由Query与Key的相似性来计算每个Value值的权重,然后对Value值进行加权求和。加权求和得到最终的Value值,也就是Attention值。
如下图所示,以上的计算可以归纳为三个过程:
第一步:根据Query和Key计算二者的相似度。可以用上面所列出的加性模型、点积模型或余弦相似度来计算,得到注意力得分si
第二步:用softmax函数对注意力得分进行数值转换。一方面可以进行归一化,得到所有权重系数之和为1的概率分布,另一方面可以用softmax函数的特性突出重要元素的权重;
第三步:根据权重系数对Value进行加权求和:
图示如下:
可以把以上的过程用简洁的公式整理出来:
下面来看文章的中是如何将两个模态进行融合的,下图为网络结构:
该模块是基于注意机制开发的,其目标是基于查询x从上下文向量中检索信息。通常,我们可以先使用MLP层计算查询x和上下文向量之间的相似性分数。然后,该分数将使用Softmax运算符进行标准化。最后,上下文向量将被加权并求和为注意层的输出
原论文讲的很清楚,就直接贴出来论文了
三.总结
本文中融合RGB相机数据和事件相机数据,使用了交叉注意力机制和自注意力机制将两个模态进行融合,用来进行跟踪任务
四.个人想法
也许在现有任务上使用RGB和事件相机数据融合在一起也许会更好
这篇关于VisEvent: Reliable Object Tracking via Collaboration of Frame and Event Flows论文笔记的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!