https://arxiv.org/pdf/2310.00754 https://github.com/YiyangZhou/LURE 背景 对象幻觉:生成包含图像中实际不存在的对象的描述 早期的工作试图通过跨不同模式执行细粒度对齐(Biten et al.,2022)或通过数据增强减少对象共现模式(Rohrbach et al.,2018; Kim et al.,2023)来解决小规模多
论文标题: GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers 论文作者: Takeru Miyato, Bernhard Jaeger, Max Welling, Andreas Geiger 导读: 本文提出一种几何感知注意力机制,替换Transformer中原有的位置编码方式,使得Transfo