视听分割相关论文阅读

本文主要是介绍视听分割相关论文阅读，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1. End-to-End Referring Video Object Segmentation with Multimodal Transformers

RVOS（视频中的参考对象分割）比RIS（图像中的参考对象分割）要困难得多，因为指代动作的文本表达通常无法从单个静态帧中正确推断出来。此外，与基于图像的方法不同，RVOS方法可能需要在多帧中建立被参考对象的数据关联（跟踪），以应对遮挡或运动模糊等干扰。

本文使用标准的基于Transformer的文本编码器从文本查询中提取语言特征，并使用时空编码器从视频帧中提取视觉特征。然后，将这些特征传递到多模态Transformer中，该Transformer输出多个对象预测序列（模型生成一系列预测结果，每个结果对应于视频中的一个对象实例，并且在整个视频帧序列中跟踪这些对象。）。接下来，为了确定哪个预测序列最符合被指对象，我们计算每个序列的文本参考评分。为此，我们提出了一种时间段投票方案，使我们的模型在做出决策时能够专注于视频中更相关的部分。（在视频的不同时间段计算相似度评分，然后根据这些评分对整个序列进行投票或加权求和，聚焦于视频中最相关的部分。）