本文主要是介绍Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
通过视觉对比解码减轻大型视觉语言模型中的物体幻觉
Abstract
大视觉语言模型(LVLM)已经取得了长足的进步,将视觉识别和语言理解交织在一起,生成不仅连贯而且与上下文相协调的内容。尽管取得了成功,LVLM 仍然面临物体幻觉的问题,即模型生成看似合理但不正确的输出,其中包括图像中不存在的物体。为了缓解这个问题,我们引入了视觉对比解码(VCD),这是一种简单且无需训练的方法,可以对比源自原始视觉输入和扭曲视觉输入的输出分布。所提出的 VCD 有效减少了对统计偏差和单峰先验的过度依赖,这是物体幻觉的两个重要原因。这种调整确保生成的内容紧密结合视觉输入,从而产生上下文准确的输出。我们的实验表明,VCD 在无需额外训练或使用外部工具的情况下,可以显着减轻不同 LVLM 系列的物体幻觉问题。除了减轻物体幻觉之外,VCD 在一般 LVLM 基准测试中也表现出色,凸显了其广泛的适用性。代码将被公开。
1. Introduction
大型视觉语言模型 (LVLM) 已成为计算机视觉和自然语言处理交叉领域不可或缺的一部分,由于它们能够从视觉输入生成上下文相关的文本描述,因此能够实现一系列应用。这些模型的特点是能够有效地捕获复杂的视觉模式并将其转化为连贯的语言表示。 LVLM 的发展以模型架构、训练方法和数据多样性的不断改进为标志,从而提高了性能和应用程序的多功能性。尽管取得了这些进步,但具体的挑战仍然存在,物体幻觉问题是影响 LVLM 跨领域可靠性和适用性的一个突出问题。
本文中的物体幻觉是指 LVLM 生成语义一致但与给定图像中的真实物体不一致的文本内容的现象。这一挑战不仅揭示了 LVLM 的基本问题,例如过度依赖统计偏差 和单峰先验 ,而且对LVLM 的实际部署。在生成内容的准确性和可靠性至关重要的应用中,物体幻觉可能会导致错误信息、误解以及随后的错误决策。在医疗保健、自主系统 和机器人等领域,这种不准确不仅是不可取的,而且可能会产生严重后果。因此,解决幻觉问题对于增强 LVLM 在各种现实场景中的完整性、可靠性和广泛适用性至关重要。
人们已经探索了各种方法来抑制 VLM 中的物体幻觉。早期的工作通过执行细粒度模态对齐 [6]Ali Furkan Biten, Llu ́ıs G ́ omez, and Dimosthenis Karatzas. Let there be a clock on the beach: Reducing object hallucination in image captioning. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 1381–1390, 2022. 2 或通过数据增强减少对象共现的统计偏差来尝试小规模 VLMJae Myung Kim, A Koepke, Cordelia Schmid, and Zeynep Akata. Exposing and mitigating spurious correlations for cross-modal retrieval. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2584–2594, 2023. 2----Anna Rohrbach, Lisa Anne Hendricks, Kaylee Burns, Trevor Darrell, and Kate Saenko. Object hallucination in image captioning. arXiv preprint arXiv:1809.02156, 2018. 2。然而,LVLM 的行为与小规模 VLM 显着不同,使得相关方法难以推广和扩展 。最近的几项研究通过提出针对幻觉的数据集进行微调来解决这个问题Anisha Gunjal, Jihan Yin, and Erhan Bas. Detecting and preventing hallucinations in large vision language models. arXiv preprint arXiv:2308.06394, 2023. 1, 2, 3---Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, and Lijuan Wang. Aligning large multi-modal model with robust instruction tuning. arXiv preprint arXiv:2306.14565, 2023. 2, 3,训练事后修订器Yiyang Zhou、Chenhang Cui、Jaehong Yoon、Linjun 张、Zhun Deng、Chelsea Finn、Mohit Bansal 和 Huaxio Yao。分析和减轻大型视觉语言模型中的物体幻觉。 arXiv 预印本 arXiv:2310.00754, 2023. 2, 3, 4以重建较少的幻觉输出或适应来自人类反馈的事实增强强化学习(RLHF)(Zhiqing Sun, Sheng Shen, Shengcao Cao, Haotian Liu, Chunyuan Li, Yikang Shen, Chuang Gan, Liang-Yan Gui, YuXiong Wang, Yiming Yang, et al. Aligning large multimodal models with factually augmented rlhf. arXiv preprint arXiv:2309.14525, 2023. 2, 3)。虽然 LVLM 中现有的物体幻觉干预措施已显示出有效性,但所产生的人力和计算成本凸显了对更简单但有效的方法的迫切需要。
在这项工作中,我们分析了视觉不确定性对 LVLM 中物体幻觉的两个主要原因的影响,即统计偏差和单峰先验(即语言先验)。基于上述分析,我们引入了视觉对比解码(VCD),这是一种无需训练的技术,旨在减轻 LVLM 中的物体幻觉。如图 1 所示,VCD 的原理是对比原始视觉输入和失真视觉输入的输出分布。因此,它充当一种纠正机制,并校准模型对集成 LLM 语言先验的过度依赖以及 LVLM 预训练语料库的统计偏差。在效率领域,VCD 因其与之前的研究相比最小的计算开销而脱颖而出 [20,42,59,77],避免了额外训练或使用外部工具(例如其他预训练模型)的需要。我们的实验证明了 VCD 的有效性,在不同的 LVLM 系列(包括 LLAVA-1.5)中对多个物体幻觉基准进行了一致的改进(例如,POPE [38] 上的 F1 分数提升高达 +7.4,MME [16] 上的 +18% 提升)。 44, 45]、InstructBLIP [12] 和 Qwen-VL [5]。此外,我们的方法也有利于 LVLM 的一般感知能力,如 MME 和 LLaVA-Bench1 的基准测试所证明的那样,表明其潜在的适用性超出了物体幻觉缓解的范围。综上所述,我们的主要贡献如下:
- 我们对 LVLM 中视觉不确定性对物体幻觉的影响进行了深入分析,特别是从统计偏差和单峰先验方面。
- 受上述分析的启发,我们设计了VCD,一种无需训练的技术,可以有效减轻LVLM中的物体幻觉。它通过对比原始视觉输入和扭曲视觉输入的输出分布来校准模型的输出,确保内容生成更加一致。
- 通过综合实验,我们证明了所提出的VCD在减轻物体幻觉和增强一般感知能力方面的功效。我们的方法无需额外的培训或外部工具即可产生显着的改进。
2. Related Work
2.1. Visual-Language Models视觉语言模型
视觉语言模型(VLM)的发展已经从植根于基于 BERT 的语言解码器 [13,31,47],用于合并视觉和文本数据 [34,36,58,63],转变为由大型语言模型 (LLM) 的集成 [4, 7, 10, 11, 17, 53, 60–62]。LLMs的出现预示着大型视觉语言模型 (LVLM) [3,9,14,34] 的出现,其特点是增强的功能和性能。在此阶段,LVLM在端到端训练技术的支持下,展示了视觉和文本标记的统一解码,标志着其性能和适应性的显着增强。最近的发展重点关注视觉指令微调[45],展示了对各种视觉语言任务的适应性。所采用的方法,从整合跨模态对齐网络到微调 LLaMA 模型,强调了该方法的多样化和特异性的趋势 [5,12,33,70]。
2.2. Hallucination in VLMs
----
2.2. VLM中的幻觉
在LLMs出现之前,NLP 界主要将“幻觉”定义为无意义内容或偏离其来源的内容的产生 [28,32,39,57,74,76]。在 VLM 领域,“物体幻觉”也有详细记录,指的是产生合理输出的模型,其中包括与图像不匹配或缺失的物体 [6,38,54]。减轻 VLM 中的物体幻觉通常涉及细粒度对比学习 [72]、ROI 特征融合 [6] 以及通过数据增强减少共现模式等策略 [30]。然而,由于传统 VLM 和当代 LVLM 具有独特的训练范式和模型架构,使这些策略适应 LVLM 中较新的自回归方法提出了重大挑战 [29, 66]。
最近的努力试图解决这些复杂性,研究深入研究了 LVLM 领域内物体幻觉的评估和检测 [38,42,48,64]。例如,POPE [38]将幻觉转化为二元分类问题,以探究模型对图像中是否存在特定物体的感知。与此同时,人们显着地推动了开发精炼数据集,以微调现有的 LVLM [20,35,42],训练事后修订器以检测和重建较少的幻觉输出 [77],并适应事实增强RLHF [59]。然而,获取额外数据集、对原始或新引入的模型进行细粒度调整或利用其他现成的预训练模型的现有方法可能非常耗时、劳动密集型且计算成本高昂。相反,我们提出了一种概念上不同且无需训练的方法 VCD,它将输出分布与原始和扭曲的视觉输入进行对比,以校准模型对单峰先验和统计偏差的过度依赖,而不利用外部模型。
3. Method
3.1. Decoding of Vision-Language Models视觉语言模型的解码
我们考虑由 参数化的 LVLM。该模型将文本查询 x 和视觉输入 v 作为输入,其中 v 提供上下文视觉信息以帮助模型生成对文本查询的相关响应 y。响应 y 是从以查询 x 和视觉上下文 v 为条件的概率分布中自动回归采样的。在数学上,这可以表示为:
其中 yt 表示时间步 t 处的令牌,y<t 表示截至时间步 (t -1) 生成的令牌的序列。在 LVLM 的解码阶段,当概率被错误地分配给与呈现的视觉输入不一致的标记时,通常会出现对象幻觉。之前的研究已经确定了此问题的两个主要原因:(1)训练数据固有的统计偏差(例如,普遍但肤浅的对象相关性)[1,2,19],以及(2)过度依赖嵌入在用作解码器的强大LLM中的语言先验[22,38,69,75]。我们减轻物体幻觉的方法首先通过模糊的输入放大这些不良行为,然后在解码过程中与它们进行对比。
3.2. Visual Uncertainty Amplifies Hallucinations
----
3.2.视觉不确定性会加剧幻觉
视觉输入的保真度对于 LVLM 准确编码视觉特征并忠实生成输出至关重要。然而,视觉输入中引入的不确定性可能会倾斜平衡。本节深入研究了一项综合分析,旨在验证这样的假设:视觉不确定性的增加会放大 LVLM 中的语言先验和统计偏差,从而加剧物体幻觉。
视觉不确定性的引入在本文中,我们建议采用最基本的方法——对原始图像应用高斯噪声掩模——来引入视觉不确定性。该方法虽然简单,但提供了一个初始基准来估计视觉不确定性对模型输出的基线影响。遵循图像生成中的前向扩散过程[24],失真图像建模如下:
其中 v0 表示原始视觉输入(即原始图像),I 表示单位矩阵。我们在 T 个步骤中逐渐添加少量高斯噪声,生成一系列失真图像 v1,...,vT 。随着步骤t变大,原始图像v0逐渐失去其可区分的特征,其中每一步添加的噪声量由 控制。最终,当 T 趋于无穷 时,视觉不确定性达到最大,vT 将与高斯噪声无法区分。
视觉不确定性放大了语言先验 图 2 显示,视觉不确定性可能迫使 LVLM 忽视视觉证据并过度利用语言先验进行决策。然而,这种趋势并不完全出乎意料,因为LLMs旨在根据大量文本语料库预测下一个单词的概率。当遇到模糊的视觉刺激时,LVLM 可能会将这些传统的、基于文本的预测误解为“安全网”。这些先验虽然通常有用,但可能会引入与实际视觉内容不一致的偏差或假设,特别是当视觉输入缺乏清晰度时。
图 2. 视觉不确定性放大语言先验的图示。鉴于图像中包含黑色香蕉和其他彩色水果,LVLM 更喜欢更传统的香蕉颜色,例如“黄色”和“绿色”,从而增加了视觉不确定性。随着失真度的增加,真实颜色“黑色”的概率 (logp(y|x, v0)) 会减小,使得 LVLM 过度依赖于 LLM 预训练的语言先验,这些先验通常将香蕉与黄色或绿色联系起来。
视觉不确定性放大了统计偏差 大多数视觉语言预训练数据集的构建主要基于 MSCOCO [40],其本质上存在不平衡的对象分布和有偏差的对象相关性。之前的工作 [38, 77] 指出,基于此类数据进行训练的 LVLM 可能会继承这些统计偏差来生成幻觉对象的描述。为了进一步检验视觉不确定性可能会放大预训练统计偏差的假设,我们设计了两个有针对性的实验来验证(1)LVLM 是否更容易对扭曲的视觉输入产生频繁出现的物体产生幻觉;(2)LVLM 是否更容易产生经常出现的幻觉物体。 这些物体经常与图像中具有扭曲视觉输入的真实物体同时出现。图 3 显示了一个明显的趋势,即 LVLM 更容易产生频繁且同时出现的对象的幻觉,这归因于从训练数据继承的不平衡对象分布和虚假对象相关性。
图 3. 左侧子图显示了 MSCOCO 中频繁出现的对象与其在验证集中产生幻觉的倾向之间的相关性。数据集中出现率较高的物体在扭曲的视觉场景下更有可能被 LVLM 产生幻觉。右边的子图描绘了经常出现在“餐桌”旁边的三个物体,当出现扭曲的视觉输入时,它们也更容易产生幻觉。
3.3. Visual Contrastive Decoding 视觉对比解码
3.3.1 Contrasting the Predictions对比预测
我们在上一节中的观察表明,视觉不确定性不仅放大了对语言先验的依赖,而且还使 LVLM 更容易受到预训练数据集中存在的表面对象相关性的影响,从而导致更严重的幻觉。鉴于此,我们引入视觉对比解码(VCD)。 VCD 旨在通过对比原始视觉输入和扭曲视觉输入生成的模型输出来抵消 LVLM 中的统计偏差和语言先验。无需额外训练或外部预训练模型即可实现此目的,使 VCD 成为一种经济高效的解决方案。
具体来说,给定文本查询 x 和视觉输入 v,模型会生成两种不同的输出分布:一种以原始 v 为条件,另一种以扭曲的视觉输入 v0 为条件,该输入是通过应用预定义的扭曲(即高斯分布)导出的。然后,通过利用两个最初获得的分布之间的差异来计算新的对比概率分布。新的对比分布 pvcd 的公式为:
其中较大的 值表示两个分布之间的差异放大更强( =0 减少到常规解码)。根据调整后的输出分布pvcd,我们可以应用各种采样策略,例如核采样[25]和束搜索[15]。
从本质上讲,VCD 是一种纠正机制,通过与倾向于偏向幻觉的分布进行对比来减少幻觉。或者,VCD 也可以解释为对比系综的一种形式,它区分 p(y | v, x) 和 p(y | v‘,x) 的逻辑。该方法与图像生成中常用的对比目标相呼应。例如,无分类器扩散模型 [23] 使用 (1 + )(x, c) -(x) 估计扩散噪声,其中 c 作为控制因素。在文本生成领域,一些研究还利用对比解码来实现更忠实的生成[37,41,52,56]。
3.3.2 自适应合理性约束
根据等式 3 中对比分布 pvcd 的形成,可能会出现挑战,因为它会惩罚受扭曲视觉输入影响的模型的整个输出行为。然而,这并不普遍正确——具有扭曲视觉输入的输出分布仍然可以维护基本的语言标准和常识推理。不加区别的惩罚可能会不准确地惩罚这些有效的输出并促进难以置信的输出的产生。为了解决这个问题,我们遵循 Li 等人的观点。 [37] 实现自适应合理性约束,该约束取决于与原始视觉输入的输出分布相关的置信水平:
其中V是LVLM的输出词汇表,是[0, 1]中的一个超参数,用于控制下一个令牌分布的截断。越大表示截断越激进,仅保留高概率的标记。
结合视觉对比解码和自适应合理性约束,我们得到完整的公式:
结合自适应合理性约束可以细化对比分布,增强对简单决策的信心。这确保了当模型对其与原始输入相关的输出高度有信心时,候选池会得到简化,通常会以高概率保留单个标记。这种方法有效地抵消了 VCD 的潜在不利影响,防止其无意中促进不可信token的生成,并保持生成内容的完整性。
4. 实验
本节详细介绍了我们对各种 LVLM 中提出的视觉对比解码的评估。
4.1.实验设置
Datasets & Evaluation Metrics
----
数据集和评估指标
POPE,基于轮询的对象探测评估[38],提出了一种评估对象幻觉的简化方法。在此基准测试中,LVLM 会被查询以回答给定图像中是否存在特定对象。探测存在对象和不存在对象的查询之间的比例是平衡的(即 50% 与 50%)。它包含三种采样设置:随机、流行和对抗性,每种设置在构建负样本方面都有所不同。在随机设置中,随机选择图像中不存在的对象。流行的设置从高频池中选择丢失的对象,而在对抗性设置中,优先考虑图像中不存在的同时出现的对象。 POPE 基准聚合了来自三个不同来源的数据:MSCOCO [40]、A-OKVQA [55] 和 GQA [27]。它涉及每个采样设置下每个数据集的 500 个图像,并为每个图像制定 6 个问题,最终从这些数据集的开发集中产生总共 27, 000 个查询答案对2。评估以四个关键指标为中心:准确度、精确度、召回率和 F1 分数。
MME [16] 是一个广泛的基准,专门用于跨多个维度评估 LVLM。它包括十个与感知相关的子任务和四个以认知为中心的子任务。继尹等人之后。 [71],除了调整整个数据集外,我们还利用存在和计数子集进行对象级幻觉评估,以及位置和颜色子集进行属性级幻觉评估。性能是通过准确度和准确度+的组合指标来量化的,作为官方实施3。
LLaVA-Bench包含 24 张图像,并附带 60 个问题,涵盖室内和室外场景、模因、绘画和草图等一系列背景。该数据集旨在评估 LVLM 处理更具挑战性任务的能力及其对新领域的适应性。我们对此数据集进行案例研究,以定性地证明我们提出的 VCD 的有效性。
LVLM 基线 我们评估了我们的 VCD 在三个最先进的 LVLM 上的有效性。具体来说,我们将 VCD 应用于 LLaVA-1.5 和 InstructBLIP,它们采用 Vicuna 7B 作为语言解码器 [12, 44],以及构建在 Qwen 7B 主干之上的 Qwen-VL [5]。为了进行更有说服力的比较,我们报告了 POPE 和 MME 基准测试 5 次运行的平均结果以及标准差。
实现细节 在我们的实验中,除非另有明确说明,否则我们设置 =1、=0.1 和 =0.1。为了进行一致的比较分析,我们的基线解码策略采用直接采样(即在所有实验表中表示为“常规”),其中下一个标记直接从 post-softmax 分布中采样。相反,所有实验表的解
码列中标记为“VCD”的实例指的是我们提出的视觉对比解码策略,该策略也直接从应用VCD后修改的post-softmax分布中采样。综合参数配置可以在补充材料中找到。
4.2.实验结果
POPE 的结果 表 1 总结了随机、流行和对抗性设置下 POPE 的实验结果。一个值得注意的观察结果是我们提出的 VCD 的稳健效果。具体来说,在不同的采样设置下,我们的 VCD 的性能在所有 LVLM 上始终大幅超过基线结果(高达 +5.8 精度和 +7.4 F1)。这表明它在抵消 LVLM 中的统计偏差和语言先验方面发挥着关键作用,从而减少物体幻觉的发生。此外,当我们从随机设置转向流行设置时,所有 LVLM 都表现出明显的性能下降,并在转向对抗性设置时经历进一步下降。这一趋势验证了我们的假设,即 LVLM 固有的统计偏差在很大程度上导致了物体幻觉问题。在更详细的特定模型分析中,VCD 展示了不同 LVLM 的不同影响。对于 LLaVA-1.5 和 Qwen-VL,F1 分数的提升主要是由召回率提升(例如高达 10 分)驱动的,展示了其准确检测物体存在的增强能力。相反,InstructBLIP 的 F1 分数提高很大程度上归功于精度的提高,这意味着其准确过滤误报的能力得到了增强。这凸显了 VCD 在 POPE 的二元决策场景中强调各种模型架构的不同属性的能力。
表 1. POPE 的结果。常规解码表示直接采样,而 VCD 是指从我们提出的对比分布 pvcd 中采样。每个场景中的最佳表演均以粗体显示。
MME 幻觉子集的结果 MME 子集评估超出了 POPE 的范围,涵盖了对象级别和属性级别的幻觉。表 2 中的结果表明,实施 VCD 可以在解决所有模型的物体级幻觉方面得到统一的增强。此外,VCD 显示出对属性级别颜色分数的总体积极影响,有助于显着提高整体性能。这些改进强调了 VCD 在解决 LVLM 嵌入的统计偏差和语言先验方面的优势,从而对更广泛的幻觉挑战产生积极影响。相比之下,四个指标的位置得分相对较低,与 VCD 的提升幅度很小,这表明 LVLM 在位置推理方面的能力相对较弱。
表 2. MME 幻觉子集的结果。常规解码表示直接采样,而 VCD 是指从我们提出的对比分布 pvcd 中采样。每个场景中的最佳表演均以粗体显示。
MME Full Set 上的结果 如图 4 所示,我们还包括了 MME Full Set 上的 VCD 评估,以评估其对 LVLM 总体能力的影响。由于所有模型都表现出可比的性能轨迹,我们以 LLaVA-1.5 为代表给出结果 。 VCD 的实施导致基于感知的任务的持续增强,同时保留了 LVLM 的原始识别能力。这可能归因于 VCD 减少了统计偏差和语言先验,从而通过确保基于视觉的分析来提高 LVLM 的一般感知能力。
图 4. LLaVA-1.5 上的 MME 全套结果。 VCD 可以持续增强 LVLM 的感知能力,同时保留其识别能力。
4.3. Further Discussions
视觉不确定性对幻觉的影响我们进一步研究LLaVA-1.5的物体幻觉如何随着视觉不确定性而变化。图 6 描绘了随着噪声步长的增加,POPE 基准的性能明显下降,这表明随着视觉不确定性的增大,物体幻觉将变得更加严重。这一观察结果与我们之前在第 3.2 节中的发现一致,即视觉不确定性会加剧 LVLM 生成过程中的物体幻觉问题。我们提出的 VCD 通过将模型输出与原始和扭曲的视觉输入进行对比来作为一种校正机制。
GPT-4V 开放式生成的辅助评估 除了 POPE 和 MME 评估中采用的“是或否”问题格式之外,我们还使用最近发布的 LVLM 将分析扩展到 LLaVA-Bench 中的开放式字幕任务, GPT-4V,遵循 Yin 等人的观点。 [71]。表 3 中的结果显示了 VCD 相对于常规解码的一致改进。观察到的准确性提高表明 VCD 能够有效减轻幻觉。同时,VCD 对统计偏差和语言先验的抵消增强了 LVLM 的感知能力,响应细节的显着改善就证明了这一点。
表 3. GPT-4V 辅助评估开放式生成的结果。准确性衡量响应与图像内容的一致性,详细性衡量响应中细节的丰富程度。这两个指标的等级均为 10。
LLaVA-Bench 的案例研究 图 5 展示了两个案例研究,说明在给定相同的提示和图像的情况下,常规解码如何产生受预训练期间固有的统计偏差和语言先验影响的物体幻觉。例如,在显示的示例中,诸如“餐桌”和“叉子”之类的物体通常与可能的真实物体“椅子”同时出现,是幻觉的。相比之下,VCD 的实施显着减轻了这些幻觉问题,同时保留了输出文本的连贯性和信息量。由于页数限制,更多案例和消融研究请参阅补充材料
5 结论和局限性
在本文中,我们解决了 LVLM 中的物体幻觉问题。我们对视觉不确定性如何影响幻觉进行了深入分析,特别是从统计偏差和语言先验方面。我们的研究结果表明,视觉不确定性放大了这些因素,导致更多的幻觉。有鉴于此,我们引入了视觉对比解码(VCD),这是一种新颖的免训练方法,它利用对比分布来校准模型的输出,而无需使用外部工具。我们在多个基准和 LVLM 系列中进行的广泛实验证实了 VCD 在减少幻觉方面的功效,并证明了其增强 LVLM 整体感知能力的潜力。
局限性虽然这项研究采用基本的高斯噪声方法来引入视觉不确定性,但更细粒度的技术(例如对象级模糊)有可能改善结果。此外,我们的重点仅限于 LVLM 处理图像和文本,而不包括它们在视频理解中的新兴应用。未来的研究方向包括探索不同的图像失真方法,并将视觉对比解码(VCD)框架扩展到更广泛的 LVLM。
论文
[1] Vedika Agarwal, Rakshith Shetty, and Mario Fritz. Towards causal vqa: Revealing and reducing spurious correlations by invariant and covariant semantic editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9690–9698, 2020. 1, 3
[2] Aishwarya Agrawal, Dhruv Batra, and Devi Parikh. Analyzing the behavior of visual question answering models. arXiv preprint arXiv:1606.07356, 2016. 1, 3
[3] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. Advances in Neural Information Processing Systems, 35:23716–23736, 2022. 2
[4] Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, et al. Qwen technical report. arXiv preprint arXiv:2309.16609, 2023. 2
[5] Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023. 1, 2, 5
[6] Ali Furkan Biten, Lluís Gómez, and Dimosthenis Karatzas. Let there be a clock on the beach: Reducing object hallucination in image captioning. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 1381–1390, 2022. 2
[7] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020. 2
[8] Long Chen, Oleg Sinavski, Jan Hünermann, Alice Karnsund, Andrew James Willmott, Danny Birch, Daniel Maund, and Jamie Shotton. Driving with llms: Fusing object-level vector modality for explainable autonomous driving. arXiv preprint arXiv:2310.01957, 2023. 1
[9] Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas Beyer, et al. Pali: A jointlyscaled multilingual language-image model. arXiv preprint arXiv:2209.06794, 2022. 2
[10] Wei-Lin Chiang, Zhuohan Li, Zi Lin, Ying Sheng, Zhanghao Wu, Hao Zhang, Lianmin Zheng, Siyuan Zhuang, Yonghao Zhuang, Joseph E. Gonzalez, Ion Stoica, and Eric P. Xing. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality, 2023. 2
[11] Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. Palm: Scaling language modeling with pathways. arXiv preprint arXiv:2204.02311, 2022. 2
[12] Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, and Steven Hoi. Instructblip: Towards general-purpose visionlanguage models with instruction tuning. arXiv preprint arXiv:2306.04387, 2023. 1, 2, 5
[13] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018. 2
[14] Danny Driess, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, et al. Palm-e: An embodied multimodal language model. arXiv preprint arXiv:2303.03378, 2023. 2
[15] Markus Freitag and Yaser Al-Onaizan. Beam search strategies for neural machine translation. arXiv preprint arXiv:1702.01806, 2017. 4
[16] Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Zhenyu Qiu, Wei Lin, Jinrui Yang, Xiawu Zheng, et al. Mme: A comprehensive evaluation benchmark for multimodal large language models. arXiv preprint arXiv:2306.13394, 2023. 2, 5
[17] Fabrizio Gilardi, Meysam Alizadeh, and Mäel Kubli. Chatgpt outperforms crowd-workers for text-annotation tasks. arXiv preprint arXiv:2303.15056, 2023. 2
[18] Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, and Kai Chen. Multimodal-gpt: A vision and language model for dialogue with humans. arXiv preprint arXiv:2305.04790, 2023. 1
[19] Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. Making the v in vqa matter: Elevating the role of image understanding in visual question answering. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6904–6913, 2017. 1, 3
[20] Anisha Gunjal, Jihan Yin, and Erhan Bas. Detecting and preventing hallucinations in large vision language models. arXiv preprint arXiv:2308.06394, 2023. 1, 2, 3
[21] Vipul Gupta, Zhuowan Li, Adam Kortylewski, Chenyu Zhang, Yingwei Li, and Alan Yuille. Swapmix: Diagnosing and regularizing the over-reliance on visual context in visual question answering. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5078–5088, 2022. 1
[22] Yudong Han, Liqiang Nie, Jianhua Yin, Jianlong Wu, and Yan Yan. Visual perturbation-aware collaborative learning for overcoming the language prior problem. arXiv preprint arXiv:2207.11850, 2022. 1, 3
[23] Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022. 4
[24] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020. 3
[25] Ari Holtzman, Jan Buys, Li Du, Maxwell Forbes, and Yejin Choi. The curious case of neural text degeneration. arXiv preprint arXiv:1904.09751, 2019. 4
[26] Mingzhe Hu, Shaoyan Pan, Yuheng Li, and Xiaofeng Yang. Advancing medical imaging with language models: A journey from n-grams to chatgpt. arXiv preprint arXiv:2304.04920, 2023. 1
[27] Drew A Hudson and Christopher D Manning. Gqa: A new dataset for real-world visual reasoning and compositional question answering. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 6700–6709, 2019. 5
[28] Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Ye Jin Bang, Andrea Madotto, and Pascale Fung. Survey of hallucination in natural language generation. ACM Computing Surveys, 55(12):1–38, 2023. 2
[29] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020. 2
[30] Jae Myung Kim, A Koepke, Cordelia Schmid, and Zeynep Akata. Exposing and mitigating spurious correlations for cross-modal retrieval. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 2584–2594, 2023. 2
[31] MV Koroteev. Bert: a review of applications in natural language processing and understanding. arXiv preprint arXiv:2103.11943, 2021. 2
[32] Katherine Lee, Orhan Firat, Ashish Agarwal, Clara Fannjiang, and David Sussillo. Hallucinations in neural machine translation. OpenReview, 2018. 2
[33] Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang, and Ziwei Liu. Otter: A multi-modal model with in-context instruction tuning. arXiv preprint arXiv:2305.03726, 2023. 1, 2
[34] Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. Blip: Bootstrapping language-image pre-training for unified visionlanguage understanding and generation. In International Conference on Machine Learning, pages 12888–12900. PMLR, 2022. 2
[35] Lei Li, Yuwei Yin, Shicheng Li, Liang Chen, Peiyi Wang, Shuhuai Ren, Mukai Li, Yazheng Yang, Jingjing Xu, Xu Sun, et al. A large-scale dataset towards multi-modal multilingual instruction tuning. arXiv preprint arXiv:2306.04387, 2023. 3
[36] Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, and Kai-Wei Chang. Visualbert: A simple and performant baseline for vision and language. arXiv preprint arXiv:1908.03557, 2019. 2
[37] Xiang Lisa Li, Ari Holtzman, Daniel Fried, Percy Liang, Jason Eisner, Tatsunori Hashimoto, Luke Zettlemoyer, and Mike Lewis. Contrastive decoding: Open-ended text generation as optimization. arXiv preprint arXiv:2210.15097, 2022. 4
[38] Yifan Li, Yifan Du, Kun Zhou, Jinpeng Wang, Wayne Xin Zhao, and Ji-Rong Wen. Evaluating object hallucination in large vision-language models. arXiv preprint arXiv:2305.10355, 2023. 1, 2, 3, 4, 5
[39] Stephanie Lin, Jacob Hilton, and Owain Evans. Truthfulqa: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958, 2021. 2
[40] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740–755. Springer, 2014. 4, 5
[41] Alisa Liu, Maarten Sap, Ximing Lu, Swabha Swayamdipta, Chandra Bhagavatula, Noah A Smith, and Yejin Choi. Dexperts: Decoding-time controlled text generation with experts and anti-experts. arXiv preprint arXiv:2105.03023, 2021. 4
[42] Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, and Lijuan Wang. Aligning large multi-modal model with robust instruction tuning. arXiv preprint arXiv:2306.14565, 2023. 2, 3
[43] Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, and Lijuan Wang. Mitigating hallucination in large multi-modal models via robust instruction tuning. arXiv preprint arXiv:2306.14565, 2023. 1
[44] Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. Improved baselines with visual instruction tuning. arXiv preprint arXiv:2310.03744, 2023. 2, 5
[45] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. arXiv preprint arXiv:2304.08485, 2023. 1, 2
[46] Haokun Liu, Yaonan Zhu, Kenji Kato, Izumi Kondo, Tadayoshi Aoyama, and Yasuhisa Hasegawa. Llm-based humanrobot collaboration framework for manipulation tasks. arXiv preprint arXiv:2308.14972, 2023. 1
[47] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692, 2019. 2
[48] Holy Lovenia, Wenliang Dai, Samuel Cahyawijaya, Ziwei Ji, and Pascale Fung. Negative object presence evaluation (nope) to measure object hallucination in vision-language models. arXiv preprint arXiv:2310.05338, 2023. 1, 2
[49] Muhammad Maaz, Hanoona Rasheed, Salman Khan, and Fahad Shahbaz Khan. Video-chatgpt: Towards detailed video understanding via large vision and language models. arXiv preprint arXiv:2306.05424, 2023. 1
[50] Jinjie Mai, Jun Chen, Bing Li, Guocheng Qian, Mohamed Elhoseiny, and Bernard Ghanem. Llm as a robotic brain: Unifying egocentric memory and control. arXiv preprint arXiv:2304.09349, 2023. 1
[51] Yulei Niu, Kaihua Tang, Hanwang Zhang, Zhiwu Lu, XianSheng Hua, and Ji-Rong Wen. Counterfactual vqa: A causeeffect look at language bias. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12700–12710, 2021. 1
[52] Sean O’Brien and Mike Lewis. Contrastive decoding improves reasoning in large language models. arXiv preprint arXiv:2309.09117, 2023. 4
[53] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. The Journal of Machine Learning Research, 21(1):5485–5551, 2020. 2
[54] Anna Rohrbach, Lisa Anne Hendricks, Kaylee Burns, Trevor Darrell, and Kate Saenko. Object hallucination in image captioning. arXiv preprint arXiv:1809.02156, 2018. 2
[55] Dustin Schwenk, Apoorv Khandelwal, Christopher Clark, Kenneth Marino, and Roozbeh Mottaghi. A-okvqa: A benchmark for visual question answering using world knowledge.In European Conference on Computer Vision, pages 146–162. Springer, 2022. 5
[56] Weijia Shi, Xiaochuang Han, Mike Lewis, Yulia Tsvetkov, Luke Zettlemoyer, and Scott Wen-tau Yih. Trusting your evidence: Hallucinate less with context-aware decoding. arXiv preprint arXiv:2305.14739, 2023. 4
[57] Weijia Shi, Sewon Min, Michihiro Yasunaga, Minjoon Seo, Rich James, Mike Lewis, Luke Zettlemoyer, and Wen-tau Yih. Replug: Retrieval-augmented black-box language models. arXiv preprint arXiv:2301.12652, 2023. 2
[58] Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, and Cordelia Schmid. Videobert: A joint model for video and language representation learning. In Proceedings of the IEEE/CVF international conference on computer vision, pages 7464–7473, 2019. 2
[59] Zhiqing Sun, Sheng Shen, Shengcao Cao, Haotian Liu, Chunyuan Li, Yikang Shen, Chuang Gan, Liang-Yan Gui, YuXiong Wang, Yiming Yang, et al. Aligning large multimodal models with factually augmented rlhf. arXiv preprint arXiv:2309.14525, 2023. 2, 3
[60] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. Stanford alpaca: An instruction-following llama model. https://github.com/tatsu-lab/stanford_alpaca, 2023. 2
[61] Yi Tay, Mostafa Dehghani, Vinh Q Tran, Xavier Garcia, Jason Wei, Xuezhi Wang, Hyung Won Chung, Dara Bahri, Tal Schuster, Steven Zheng, et al. Ul2: Unifying language learning paradigms. In The Eleventh International Conference on Learning Representations, 2022.
[62] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023. 2
[63] Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, and Lijuan Wang. Git: A generative image-to-text transformer for vision and language. arXiv preprint arXiv:2205.14100, 2022. 2
[64] Junyang Wang, Yiyang Zhou, Guohai Xu, Pengcheng Shi, Chenlin Zhao, Haiyang Xu, Qinghao Ye, Ming Yan, Ji Zhang, Jihua Zhu, et al. Evaluation and analysis of hallucination in large vision-language models. arXiv preprint arXiv:2308.15126, 2023. 2
[65] Sheng Wang, Zihao Zhao, Xi Ouyang, Qian Wang, and Dinggang Shen. Chatcad: Interactive computer-aided diagnosis on medical image using large language models. arXiv preprint arXiv:2302.07257, 2023. 1
[66] Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, et al. Emergent abilities of large language models. arXiv preprint arXiv:2206.07682, 2022. 2
[67] Yike Wu, Yu Zhao, Shiwan Zhao, Ying Zhang, Xiaojie Yuan, Guoqing Zhao, and Ning Jiang. Overcoming language priors in visual question answering via distinguishing superficially similar instances. arXiv preprint arXiv:2209.08529, 2022. 1
[68] Zhenyu Wu, Ziwei Wang, Xiuwei Xu, Jiwen Lu, and Haibin Yan. Embodied task planning with large language models. arXiv preprint arXiv:2307.01848, 2023. 1
[69] Hong Yan, Lijun Liu, Xupeng Feng, and Qingsong Huang. Overcoming language priors with self-contrastive learning for visual question answering. Multimedia Tools and Applications, 82(11):16343–16358, 2023. 1, 3
[70] Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, Chenliang Li, Yuanhong Xu, Hehong Chen, Junfeng Tian, Qian Qi, Ji Zhang, and Fei Huang. mplug-owl: Modularization empowers large language models with multimodality. arXiv preprint arXiv:2304.14178, 2023. 1, 2
[71] Shukang Yin, Chaoyou Fu, Sirui Zhao, Tong Xu, Hao Wang, Dianbo Sui, Yunhang Shen, Ke Li, Xing Sun, and Enhong Chen. Woodpecker: Hallucination correction for multimodal large language models. arXiv preprint arXiv:2310.16045, 2023. 5, 8
[72] Yan Zeng, Xinsong Zhang, and Hang Li. Multi-grained vision language pre-training: Aligning texts with visual concepts. arXiv preprint arXiv:2111.08276, 2021. 2
[73] Hang Zhang, Xin Li, and Lidong Bing. Video-llama: An instruction-tuned audio-visual language model for video understanding. arXiv preprint arXiv:2306.02858, 2023. 1
[74] Yue Zhang, Yafu Li, Leyang Cui, Deng Cai, Lemao Liu, Tingchen Fu, Xinting Huang, Enbo Zhao, Yu Zhang, Yulong Chen, et al. Siren’s song in the ai ocean: A survey on hallucination in large language models. arXiv preprint arXiv:2309.01219, 2023. 2
[75] Ren Zhibo, Wang Huizhen, Zhu Muhua, Wang Yichao, Xiao Tong, and Zhu Jingbo. Overcoming language priors with counterfactual inference for visual question answering. In Proceedings of the 22nd Chinese National Conference on Computational Linguistics, pages 600–610, 2023. 1, 3
[76] Chunting Zhou, Graham Neubig, Jiatao Gu, Mona Diab, Paco Guzman, Luke Zettlemoyer, and Marjan Ghazvininejad. Detecting hallucinated content in conditional neural sequence generation. arXiv preprint arXiv:2011.02593, 2020. 2
[77] Yiyang Zhou, Chenhang Cui, Jaehong Yoon, Linjun Zhang, Zhun Deng, Chelsea Finn, Mohit Bansal, and Huaxiu Yao. Analyzing and mitigating object hallucination in large visionlanguage models. arXiv preprint arXiv:2310.00754, 2023. 2, 3, 4
[78] Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, and Mohamed Elhoseiny. Minigpt-4: Enhancing vision-language understanding with advanced large language models. arXiv preprint arXiv:2304.10592, 2023. 1
[79] Xueyan Zou, Jianwei Yang, Hao Zhang, Feng Li, Linjie Li, Jianfeng Gao, and Yong Jae Lee. Segment everything everywhere all at once. arXiv preprint arXiv:2304.06718, 2023. 5
这篇关于Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!