本文主要是介绍AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.01-2024.03.05,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
论文目录~
- 1.CLEVR-POC: Reasoning-Intensive Visual Question Answering in Partially Observable Environments
- 2.Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models
- 3.MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer
- 4.Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and Challenges
- 5.Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception
- 6.Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity
- 7.Enhancing Conceptual Understanding in Multimodal Contrastive Learning through Hard Negative Samples
- 8.PromptKD: Unsupervised Prompt Distillation for Vision-Language Models
- 9.Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters
- 10.Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use
- 11.Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review
- 12.RegionGPT: Towards Region Understanding Vision Language Model
- 13.Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training
- 14.FakeNewsGPT4: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs
- 15.One Prompt Word is Enough to Boost Adversarial Robustness for Pre-trained Vision-Language Models
- 16.Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection
- 17.Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval
- 18.Evaluating and Mitigating Number Hallucinations in Large Vision-Language Models: A Consistency Perspective
- 19.Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning
- 20.HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding
- 21.Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training
- 22.Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models
- 23.Multi-modal Attribute Prompting for Vision-Language Models
1.CLEVR-POC: Reasoning-Intensive Visual Question Answering in Partially Observable Environments
标题:CLEVR-POC:部分可观测环境中的推理密集型视觉问题解答
author:Savitha Sam Abraham, Marjan Alirezaie, Luc De Raedt
publish:17 pages, 10 images, Accepted at LREC-COLING 2024 - The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation
date Time:2024-03-05
paper pdf:http://arxiv.org/pdf/2403.03203v1
摘要:
学习与推理的整合是人工智能研究议程上的重要议题。然而,利用现有的背景知识对部分观察到的场景进行推理,以回答有关场景的问题,却鲜有人关注。然而,我们人类经常使用这些知识来推断视觉问题的合理答案(通过排除所有不一致的答案)。这些知识通常以对象约束的形式出现,而且往往具有高度的领域或环境特定性。我们提出了一种名为 CLEVR-POC 的新基准,用于在约束条件下的部分可观测环境中进行推理密集型视觉问题解答(VQA)。在 CLEVR-POC 中,需要利用逻辑约束形式的知识来生成关于给定局部场景中隐藏对象问题的合理答案。例如,如果知道所有杯子的颜色都是红色、绿色或蓝色,而且只有一个绿色杯子,那么只要观察到包括绿色杯子在内的所有其他杯子,就有可能推断出被遮挡的杯子的颜色是红色或蓝色。通过实验,我们观察到,在 CLEVR-POC 上,CLIP 等预训练视觉语言模型(约 22%)和 GPT-4 等大型语言模型(约 46%)的性能都很低,这说明有必要建立一个框架,以处理推理密集型任务,因为在这些任务中,特定环境的背景知识是可用的,也是至关重要的。此外,我们的演示还说明,神经符号模型将 GPT-4 等 LLM 与视觉感知网络和形式逻辑推理器集成在一起,在 CLEVR-POC 上表现出了卓越的性能。
2.Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models
标题:大饱眼福:多模态大型语言模型的分辨率混合适应技术
author:Gen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji
date Time:2024-03-05
paper pdf:http://arxiv.org/pdf/2403.03003v1
摘要:
现有的多模态大语言模型(MLLMs)尽管取得了长足的进步,但在细粒度视觉识别方面仍然逊色。与以往的研究不同,我们从图像分辨率的角度研究了这一问题,并发现低分辨率和高分辨率视觉特征的结合可以有效缓解这一缺陷。基于这一观点,我们提出了一种新颖高效的 MLLM 方法,即分辨率混合自适应(MRA)。具体来说,MRA 针对不同分辨率的图像采用两种视觉路径,其中高分辨率的视觉信息通过新型分辨率混合适配器(MR-Adapters)嵌入到低分辨率路径中。这种设计还大大减少了 MLLM 的输入序列长度。为了验证 MRA 的有效性,我们将其应用于最近推出的一种名为 LLaVA 的 MLLM,并将新模型称为 LLaVA-HR。我们在 11 项视觉语言 (VL) 任务上进行了广泛的实验,结果表明 LLaVA-HR 在 8 项 VL 任务上的表现优于现有的 MLLM,例如在 TextVQA 上的表现为 +9.4%。更重要的是,与 LLaVA-1.5 相比,LLaVA-HR 的训练和推理都保持了 MRA 的高效率,例如训练时间减少了 20 个小时,推理速度提高了 3 倍。源代码发布于:https://github.com/luogen1996/LLaVA-HR。
3.MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer
标题:MADTP:多模态对齐引导动态标记剪枝,用于加速视觉语言转换器
author:Jianjian Cao, Peng Ye, Shengze Li, Chong Yu, Yansong Tang, Jiwen Lu, Tao Chen
publish:19 pages, 9 figures, Published in CVPR2024
date Time:2024-03-05
paper pdf:http://arxiv.org/pdf/2403.02991v1
摘要:
视觉语言转换器(VLTs)近来取得了巨大成功,但同时也伴随着沉重的计算成本,其中一个主要原因是视觉和语言标记数量庞大。现有用于压缩 VLT 的标记剪枝研究主要采用基于单一模态的方案,但却忽视了不同模态在指导标记剪枝过程中的关键作用,导致一种模态的重要标记在另一种模态分支中被错误剪枝。同时,现有的 VLT 修剪工作也缺乏根据不同输入样本动态压缩各层的灵活性。为此,我们提出了一种名为 "多模态对齐引导动态标记剪枝(MADTP)"的新型框架,用于加速各种 VLT。具体来说,我们首先引入了一个精心设计的多模态对齐指导(MAG)模块,该模块可以对不同模态中同一语义概念的特征进行对齐,以确保修剪后的标记对所有模态都不那么重要。我们还设计了一个新颖的动态标记剪枝(DTP)模块,它可以根据不同的输入实例自适应地调整每一层的标记压缩率。在各种基准上进行的广泛实验证明,MADTP 能显著降低各种多模态模型的计算复杂度,同时保持极具竞争力的性能。值得注意的是,当应用于 NLVR2 数据集中的 BLIP 模型时,MADTP 可以减少 80% 的 GFLOPs,而性能下降不到 4%。
4.Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and Challenges
标题:使用 LLM 进行数据扩充:数据视角、学习范式和挑战
author:Bosheng Ding, Chengwei Qin, Ruochen Zhao, Tianze Luo, Xinze Li, Guizhen Chen, Wenhan Xia, Junjie Hu, Anh Tuan Luu, Shafiq Joty
date Time:2024-03-05
paper pdf:http://arxiv.org/pdf/2403.02990v1
摘要:
在快速发展的机器学习(ML)领域,数据扩增(DA)已成为一种关键技术,可在无需收集额外数据的情况下,通过丰富训练示例来提高模型性能。本调查探讨了大型语言模型(LLMs)对数据扩增的变革性影响,特别是它们在自然语言处理(NLP)及其他方面带来的独特挑战和机遇。从数据角度和学习角度,我们研究了利用大型语言模型进行数据扩充的各种策略,包括对学习范式的新探索,即利用 LLM 生成的数据进行进一步训练。此外,本文还描述了这一领域面临的主要挑战,从可控数据增强到多模态数据增强。本调查报告强调了 LLM 在 DA 中引入的范式转变,旨在为该领域的研究人员和从业人员提供基础指南。
5.Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception
标题:具有细粒度视觉感知能力的多模式指令调谐 LLMs
author:Junwen He, Yifan Wang, Lijun Wang, Huchuan Lu, Jun-Yan He, Jin-Peng Lan, Bin Luo, Xuansong Xie
date Time:2024-03-05
paper pdf:http://arxiv.org/pdf/2403.02969v1
摘要:
多模态大语言模型(MLLMs)利用大语言模型作为认知框架,完成各种视觉语言任务。最近,人们努力使 MLLM 具备视觉感知和基础能力。然而,在提供细粒度像素级感知和将交互扩展到特定文本输入之外方面仍存在差距。在这项工作中,我们提出了{\bf{AnyRef}},这是一种通用的 MLLM 模型,可以从文本、方框、图像或音频等多模态引用中生成像素级对象感知和自然语言描述。这一创新为用户提供了更大的灵活性,使他们能够在文本和区域提示之外使用模型,而无需进行特定模式的设计。通过我们提出的重新聚焦机制,生成的接地输出可引导用户更好地聚焦于参考对象,从而隐含地纳入额外的像素级监督。这种简单的修改利用了在 LLM 推理过程中生成的注意力分数,无需额外的计算,同时在接地掩码和引用表达方面都表现出了性能提升。只需公开可用的训练数据,我们的模型就能在多种基准测试中取得最先进的结果,包括多种模态参照分割和区域级参照表达生成。
6.Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity
标题:利用文本指导编码的神经图像压缩技术实现像素级保真度和感知保真度
author:Hagyeong Lee, Minkyu Kim, Jun-Hyuk Kim, Seungeon Kim, Dokwan Oh, Jaeho Lee
publish:The first two authors contributed equally
date Time:2024-03-05
paper pdf:http://arxiv.org/pdf/2403.02944v1
摘要:
文本引导图像压缩技术的最新进展表明,它在提高重建图像的感知质量方面具有巨大潜力。然而,这些方法的像素保真度往往大幅下降,限制了其实用性。为了填补这一空白,我们开发了一种新的文本引导图像压缩算法,它既能实现高感知质量,又能实现像素保真度。具体而言,我们提出了一种压缩框架,主要通过文本自适应编码和图像-文本联合损失训练来利用文本信息。通过这种方法,我们避免了基于文本指导生成模型的解码–众所周知,生成模型具有很高的生成多样性–并有效地利用了全局层面的文本语义信息。在各种数据集上的实验结果表明,无论是人工还是机器生成的字幕,我们的方法都能达到较高的像素级和感知质量。特别是在 LPIPS 方面,我们的方法优于所有基线方法,而在使用更精心生成的字幕时,我们的方法还有更大的改进空间。
7.Enhancing Conceptual Understanding in Multimodal Contrastive Learning through Hard Negative Samples
标题:在多模态对比学习中通过硬负样本加强概念理解
author:Philipp J. Rösch, Norbert Oswald, Michaela Geierhos, Jindřich Libovický
publish:22 pages
date Time:2024-03-05
paper pdf:http://arxiv.org/pdf/2403.02875v1
摘要:
目前利用对比学习的多模态模型在发展细粒度概念理解方面往往面临限制。这是由于在预训练过程中存在随机负样本,导致在损失函数中几乎只对非常不相似的概念进行比较。因此,这些模型在处理细粒度语义差异时非常吃力。为了解决这个问题,我们引入了一种新的预训练方法,其中包含合成硬负面文本示例。硬否定会对与视觉概念相对应的术语进行置换,从而实现更精细的视觉和文本概念对齐。此外,我们还介绍了 InpaintCOCO,这是一个新的具有挑战性的数据集,用于评估视觉语言模型中颜色、物体和大小的精细对齐。我们通过改变视觉概念,使图像不再与原始标题相匹配,从而利用 COCO 图像的生成式内绘创建了该数据集。我们的研究结果表明,在包括 InpaintCOCO 数据集在内的各种视觉语言数据集中,细粒度概念理解能力都有了显著提高。
8.PromptKD: Unsupervised Prompt Distillation for Vision-Language Models
标题:PromptKD:视觉语言模型的无监督提示提炼
author:Zheng Li, Xiang Li, Xinyi Fu, Xing Zhang, Weiqiang Wang, Jian Yang
publish:CVPR 2024. Project Page: https://zhengli97.github.io/PromptKD/. Code:
https://github.com/zhengli97/PromptKD
date Time:2024-03-05
paper pdf:http://arxiv.org/pdf/2403.02781v1
摘要:
提示学习已成为增强视觉语言模型(VLMs)(如针对特定领域下游任务的 CLIP)的一项重要技术。现有工作主要集中于设计各种提示学习形式,而忽视了提示作为从更大的教师模型中学习的有效提炼器的潜力。在本文中,我们介绍了一种无监督领域提示提炼框架,旨在通过使用未标记的领域图像进行提示驱动的模仿,将大型教师模型的知识转移到轻量级目标模型上。具体来说,我们的框架包括两个不同的阶段。在初始阶段,我们使用领域(少量镜头)标签对大型 CLIP 教师模型进行预训练。预训练完成后,我们利用 CLIP 独特的解耦模式特性,通过教师文本编码器将文本特征作为类向量进行预计算和存储。在随后的阶段,教师和学生图像编码器共享存储的类向量,以计算预测对数。此外,我们还通过 KL 发散调整教师和学生模型的对数,鼓励学生图像编码器通过可学习的提示生成与教师相似的概率分布。建议的提示提炼过程消除了对标记数据的依赖,使算法能够利用领域内大量未标记的图像。最后,利用训练有素的学生图像编码器和预先存储的文本特征(类向量)进行推理。据我们所知,我们是第一个 (1) 为 CLIP 执行无监督的特定领域提示驱动知识提炼的人,并且 (2) 建立了一个实用的文本特征预存储机制,作为教师和学生之间共享的类向量。在 11 个数据集上进行的广泛实验证明了我们方法的有效性。
9.Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters
标题:经过微调的多模态语言模型是高质量的图像-文本数据过滤器
author:Weizhi Wang, Khalil Mrini, Linjie Yang, Sateesh Kumar, Yu Tian, Xifeng Yan, Heng Wang
publish:Project Website: https://mlm-filter.github.io
date Time:2024-03-05
paper pdf:http://arxiv.org/pdf/2403.02677v1
摘要:
我们提出了一种利用微调多模态语言模型(MLM)过滤图像-文本数据的新框架。通过整合多模态语言模型的最新进展,我们的方法优于主流过滤方法(如 CLIPScore)。我们设计了四种不同但互补的指标来全面衡量图像-文本数据的质量。我们建立了一个新的管道来构建高质量的指令数据,以便微调作为数据过滤器的 MLM。与 CLIPScore 相比,我们的 MLM 过滤器能产生更精确、更全面的分数,从而直接改善过滤数据的质量,并提高预训练模型的性能。与 CLIPScore 相比,我们在流行的基础模型(即 CLIP 和 BLIP2)和各种下游任务上取得了显著改进。我们的 MLM 过滤器可适用于不同的模型和任务,并可作为 CLIPScore 的直接替代品。为了验证我们对 MLM 过滤器的设计选择,我们还提供了一项额外的消融研究。
10.Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use
标题:建模合作者:通过使用 LLM 工具,以最小的人力实现主观视觉分类
author:Imad Eddine Toubal, Aditya Avinash, Neil Gordon Alldrin, Jan Dlabal, Wenlei Zhou, Enming Luo, Otilia Stretcu, Hao Xiong, Chun-Ta Lu, Howard Zhou, Ranjay Krishna, Ariel Fuxman, Tom Duerig
date Time:2024-03-05
paper pdf:http://arxiv.org/pdf/2403.02626v1
摘要:
从内容管理到野生动物保护,需要模型识别细微或主观视觉概念的应用越来越多。传统上,开发此类概念的分类器需要大量的人工工作,以小时、天甚至月为单位来识别和注释训练所需的数据。即使最近提出的敏捷建模技术能够快速引导图像分类器,用户仍需要花费 30 分钟或更长时间进行单调、重复的数据标注,才能训练出一个分类器。我们借鉴费斯克的 “认知吝啬鬼”(Cognitive Miser)理论,提出了一种新的框架,用自然语言交互代替人工标注,从而减轻了人工操作,将定义一个概念所需的总工作量减少了一个数量级:从标注 2,000 张图像减少到只需 100 张图像加上一些自然语言交互。我们的框架充分利用了基础模型(包括大型语言模型和视觉语言模型)的最新进展,通过对话和自动标注训练数据点来开辟概念空间。最重要的是,我们的框架无需从人群中获取注释。此外,我们的框架最终能生成轻量级分类模型,可部署在对成本敏感的场景中。在 15 个主观概念和 2 个公共图像分类数据集上,我们训练的模型优于传统的敏捷建模,也优于 ALIGN、CLIP、CuPL 等最先进的零镜头分类模型和 PaLI-X 等大型视觉问题解答模型。
11.Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review
标题:用于医学报告生成和视觉问题解答的视觉语言模型:综述
author:Iryna Hartsock, Ghulam Rasool
publish:42 pages
date Time:2024-03-04
paper pdf:http://arxiv.org/pdf/2403.02469v1
摘要:
医学视觉语言模型(VLM)结合了计算机视觉和自然语言处理技术,用于分析视觉和文本医学数据。本文回顾了最近在开发医疗保健专用 VLM 方面取得的进展,重点介绍了为医疗报告生成和视觉问题解答而设计的模型。我们介绍了自然语言处理和计算机视觉的背景,解释了如何将这两个领域的技术整合到 VLM 中,从而实现从多模态数据中学习。我们探讨的关键领域包括医学视觉语言数据集的探索、对近期值得关注的医学 VLM 所采用的架构和预训练策略的深入分析,以及对评估 VLM 在医学报告生成和视觉问题解答方面性能的评价指标的全面讨论。我们还强调了当前的挑战并提出了未来的发展方向,包括提高临床有效性和解决患者隐私问题。总之,我们的综述总结了最近在开发 VLMs 以利用多模态医疗数据改进医疗保健应用方面取得的进展。
12.RegionGPT: Towards Region Understanding Vision Language Model
标题:RegionGPT:实现区域理解视觉语言模型
author:Qiushan Guo, Shalini De Mello, Hongxu Yin, Wonmin Byeon, Ka Chun Cheung, Yizhou Yu, Ping Luo, Sifei Liu
publish:Accepted by CVPR 2024
date Time:2024-03-04
paper pdf:http://arxiv.org/pdf/2403.02330v1
摘要:
通过将大型语言模型(LLM)与图像-文本对进行整合,视觉语言模型(VLM)取得了突飞猛进的发展,但由于视觉编码器的空间感知能力有限,而且使用的是粗粒度训练数据,缺乏详细的特定区域字幕,因此它们在详细的区域视觉理解方面举步维艰。为了解决这个问题,我们推出了 RegionGPT(简称 RGPT),这是一个专为复杂区域级字幕和理解而设计的新型框架。RGPT 通过对 VLM 现有视觉编码器进行简单而有效的修改,增强了区域表征的空间意识。我们通过在训练和推理阶段整合任务引导的指令提示,进一步提高了需要特定输出范围的任务的性能,同时保持了模型在通用任务中的通用性。此外,我们还开发了一个自动区域标题数据生成管道,用详细的区域级标题来丰富训练集。我们证明,通用的 RGPT 模型可以有效地应用于一系列区域级任务,并显著提高其性能,这些任务包括但不限于复杂的区域描述、推理、对象分类和引用表达式理解。
13.Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training
标题:对比区域引导:无需训练即可提高视觉语言模型的基础水平
author:David Wan, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal
publish:Project website: https://contrastive-region-guidance.github.io/
date Time:2024-03-04
paper pdf:http://arxiv.org/pdf/2403.02325v1
摘要:
突出图像中特别相关的区域可以提高视觉语言模型(VLM)在各种视觉语言(VL)任务中的表现,方法是引导模型更密切地关注这些感兴趣的区域。例如,可以向视觉语言模型提供 “视觉提示”,通过视觉标记(如边界框)来划定关键的图像区域。然而,目前能结合视觉引导的 VLM 要么是专有的且价格昂贵,要么需要在包含视觉提示的策划数据上进行昂贵的训练。我们引入了对比区域引导(Contrastive Region Guidance,CRG),这是一种无需训练的引导方法,可使开源 VLM 响应视觉提示。CRG 对比了有视觉提示和无视觉提示时的模型输出,在没有产生正确答案所需的信息(即模型的先验信息)的情况下,考虑了模型在回答问题时暴露出的偏差。CRG 在各种 VL 任务中都取得了显著的改进:当提供区域注释时,CRG 在 ViP-Bench 上的绝对准确率最高可提高 11.1%,ViP-Bench 包含六种不同的基于区域的任务,如识别、数学和对象关系推理。我们还展示了 CRG 在空间推理中的适用性,在 What’sUp 中提高了 10%,在 SugarCrepe 中两个具有挑战性的分割任务中提高了 11.5% 和 7.5% 的准确率,在生成图像的图像-文本配准中提高了 8.4 AUROC,在 SeeTRUE 中提高了 6.8 F1 点。当参考区域缺失时,CRG 使我们能够在参考表达式理解和短语接地基准(如 RefCOCO/+/g 和 Flickr30K Entities)中对提出的区域进行重新排序,平均准确率提高了 3.2%。我们的分析探讨了 CRG 的其他屏蔽策略,量化了 CRG 的概率偏移,并评估了区域引导强度的作用,从经验上验证了 CRG 的设计选择。
14.FakeNewsGPT4: Advancing Multimodal Fake News Detection through Knowledge-Augmented LVLMs
标题:FakeNewsGPT4:通过知识增强 LVLM 推进多模态假新闻检测
author:Xuannan Liu, Peipei Li, Huaibo Huang, Zekun Li, Xing Cui, Jiahao Liang, Lixiong Qin, Weihong Deng, Zhaofeng He
date Time:2024-03-04
paper pdf:http://arxiv.org/pdf/2403.01988v1
摘要:
大量产生的多模态假新闻显示出巨大的分布差异,促使人们需要通用的检测器。然而,在特定领域内训练的封闭性限制了经典检测器获取开放世界事实的能力。在本文中,我们提出了 FakeNewsGPT4,这是一个新颖的框架,它在继承广泛的世界知识作为补充的同时,用特定的伪造知识来增强大型视觉语言模型(LVLM),以进行操纵推理。FakeNewsGPT4 中的知识增强包括获取两类特定的伪造知识,即语义关联和人工痕迹,并将它们合并到 LVLM 中。具体来说,我们设计了一个多层次的跨模态推理模块,建立跨模态的交互,以提取语义相关性。同时,我们还提出了一个双分支细粒度验证模块,以理解局部细节,从而对人工痕迹进行编码。生成的知识被转化为与 LVLM 兼容的精细嵌入。我们还结合了候选答案启发法和软提示,以提高输入的信息量。在公共基准上进行的广泛实验表明,与以前的方法相比,FakeNewsGPT4 实现了更优越的跨域性能。将提供代码。
15.One Prompt Word is Enough to Boost Adversarial Robustness for Pre-trained Vision-Language Models
标题:一个提示词足以提高预训练视觉语言模型的对抗鲁棒性
author:Lin Li, Haoyan Guan, Jianing Qiu, Michael Spratling
publish:CVPR2024
date Time:2024-03-04
paper pdf:http://arxiv.org/pdf/2403.01849v1
摘要:
像 CLIP 这样的大型预训练视觉语言模型(VLM)尽管具有出色的泛化能力,但却极易受到对抗性示例的影响。这项工作从文本提示的新角度研究了 VLM 的对抗鲁棒性,而不是广泛研究的模型权重(在这项工作中被冻结)。我们首先证明,对抗性攻击和防御的有效性对所使用的文本提示很敏感。受此启发,我们提出了一种方法,通过为 VLM 学习稳健的文本提示来提高抵御对抗性攻击的能力。我们提出的方法被命名为对抗性提示调整(APT),它不仅有效,而且计算和数据效率都很高。我们在 15 个数据集和 4 种数据稀疏性方案(从 1 次到完整训练数据设置)上进行了广泛的实验,以显示 APT 优于手工制作的提示语和其他最先进的自适应方法。APT 在输入分布变化和跨数据集的内分布性能和泛化方面表现出了卓越的能力。令人惊讶的是,只需在提示语中添加一个学习词,APT 就能显著提高准确性和鲁棒性(epsilon=4/255),比手工设计的提示语平均分别提高 13% 和 8.5%。在我们最有效的设置中,准确性和稳健性分别提高了 +26.4% 和 +16.7%。代码见 https://github.com/TreeLLi/APT。
16.Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection
标题:视觉语言对象检测的零点泛化增量学习
author:Jieren Deng, Haojian Zhang, Kun Ding, Jianhua Hu, Xingxuan Zhang, Yunkuan Wang
date Time:2024-03-04
paper pdf:http://arxiv.org/pdf/2403.01680v1
摘要:
本文介绍了增量视觉语言对象检测(IVLOD),这是一项新颖的学习任务,旨在将预先训练好的视觉语言对象检测模型(VLODM)增量地适应各种专业领域,同时保留其在通用领域的零点泛化能力。为了应对这一新挑战,我们提出了零干扰可重参数化适配(ZiRa),这是一种新颖的方法,它引入了零干扰损失和重参数化技术来解决 IVLOD 问题,而不会产生额外的推理成本或显著增加内存使用量。在 COCO 和 ODinW-13 数据集上进行的综合实验证明,ZiRa 能有效保障 VLODM 的零点泛化能力,同时不断适应新任务。具体来说,在 ODinW-13 数据集上进行训练后,ZiRa 与 CL-DETR 和 iDETR 相比表现出更优越的性能,分别大幅提高了 13.91 和 8.71 AP 的零点泛化能力。
17.Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval
标题:基于图像换句子的非对称零镜头合成图像检索
author:Yongchao Du, Min Wang, Wengang Zhou, Shuping Hui, Houqiang Li
publish:ICLR 2024 spotlight
date Time:2024-03-03
paper pdf:http://arxiv.org/pdf/2403.01431v1
摘要:
合成图像检索(CIR)任务旨在根据查询图像和描述用户意图的文本检索图像。现有方法利用先进的大型视觉语言(VL)模型在 CIR 任务中取得了很大进展,但它们普遍存在两个主要问题:缺乏用于模型训练的标注三元组,以及在部署大型视觉语言模型时难以在资源受限的环境中部署。为了解决上述问题,我们提出了基于 Image2Sentence 的非对称零镜头合成图像检索(ISA),它利用了视觉语言模型的优势,只依赖于未标记的图像进行合成学习。在该框架中,我们提出了一种新的自适应标记学习器,它能将图像映射到 VL 模型词嵌入空间中的句子。句子能自适应地捕捉具有区分性的视觉信息,并与文本修改器进一步整合。为实现灵活部署,设计了一种非对称结构,其中轻量级模型用于查询端,而大型 VL 模型用于图库端。在 CIR 任务中,轻量级模型和 VL 模型之间的配准采用了全局对比蒸馏和局部配准正则化。我们的实验证明,所提出的 ISA 可以更好地应对实际检索场景,并进一步提高检索精度和效率。
18.Evaluating and Mitigating Number Hallucinations in Large Vision-Language Models: A Consistency Perspective
标题:评估和减轻大型视觉语言模型中的数字幻觉:一致性视角
author:Huixuan Zhang, Junzhe Zhang, Xiaojun Wan
publish:13 pages
date Time:2024-03-03
paper pdf:http://arxiv.org/pdf/2403.01373v1
摘要:
大型视觉语言模型在应对与文本和视觉内容相关的挑战方面表现出了卓越的功效。然而,这些模型容易受到各种幻觉的影响。在本文中,我们将重点关注一种新形式的幻觉,具体称为数字幻觉,即模型无法准确识别图像中物体数量的情况。我们建立了一个数据集,并采用评估指标来评估数字幻觉,结果发现这一问题在主流的大型视觉语言模型(LVLM)中非常普遍。此外,我们还深入分析了数字幻觉,从两个相关的角度研究了内部和外部不一致问题。我们认为这种不一致性是导致数字幻觉的原因之一,并提出了一种一致性训练方法作为缓解这种幻觉的手段,与直接微调方法相比,该方法平均提高了 8%。
19.Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning
标题:通过 LLM 驱动的提示调整实现无数据多标签图像识别
author:Shuo Yang, Zirui Shang, Yongqi Wang, Derong Deng, Hongwei Chen, Qiyuan Cheng, Xinxiao Wu
date Time:2024-03-02
paper pdf:http://arxiv.org/pdf/2403.01209v1
摘要:
本文提出了一种无需任何训练数据的新型多标签图像识别框架,称为无数据框架,该框架利用预训练大语言模型(LLM)的知识来学习提示语,以适应像 CLIP 这样的预训练视觉语言模型(VLM)的多标签分类。通过向 LLM 提出精心设计的问题,我们获得了有关对象特征和上下文的全面知识,这些知识为学习提示提供了有价值的文本描述。然后,我们提出了一种将多标签依赖性考虑在内的分层提示学习方法,即当相应对象表现出相似属性或更有可能共同出现时,特定类别的提示标记子集将被共享。得益于 CLIP 视觉语义和语言语义之间的显著一致性,从文本描述中学习到的分层提示在推理过程中被用于执行图像分类。我们的框架为探索多个预训练模型之间的协同作用提供了一种新方法,从而实现新颖的类别识别。在三个公共数据集(MS-COCO、VOC2007 和 NUS-WIDE)上进行的广泛实验表明,我们的方法比最先进的方法取得了更好的结果,特别是在 MS-COCO 的 mAP 中,我们的方法比零镜头多标签识别方法高出 4.7%。
20.HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding
标题:HALC:通过自适应焦点-对比度解码减少物体幻视
author:Zhaorun Chen, Zhuokai Zhao, Hongyin Luo, Huaxiu Yao, Bo Li, Jiawei Zhou
publish:Code is released at https://github.com/BillChan226/HALC
date Time:2024-03-01
paper pdf:http://arxiv.org/pdf/2403.00425v1
摘要:
虽然大型视觉语言模型(LVLM)在解释多模态上下文方面表现出了令人印象深刻的能力,但它们总是受到物体幻觉(OH)的影响。我们介绍了 HALC,这是一种新颖的解码算法,旨在减轻 LVLM 的幻视现象。HALC 利用视觉语言任务中不同的细粒度最佳视觉信息,并同时对局部和全局上下文进行处理。具体来说,HALC 集成了一个强大的自动聚焦接地机制(本地)和一个专门的波束搜索算法(全局),前者可在保持文本生成质量的同时显著降低 OH。此外,HALC 可作为即插即用模块集成到任何 LVLM 中,无需额外培训。广泛的实验研究证明了 HALC 在降低 OH 方面的有效性,在四个基准测试中均优于同行。
21.Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training
标题:用于视觉语言预训练的语义增强型跨模态屏蔽图像建模
author:Haowei Liu, Yaya Shi, Haiyang Xu, Chunfeng Yuan, Qinghao Ye, Chenliang Li, Ming Yan, Ji Zhang, Fei Huang, Bing Li, Weiming Hu
publish:Accepted to LREC-COLING 2024
date Time:2024-03-01
paper pdf:http://arxiv.org/pdf/2403.00249v1
摘要:
在视觉语言预训练(VLP)中,最近引入了掩蔽图像建模(MIM),用于细粒度的跨模态配准。然而,在大多数现有方法中,MIM 的重建目标缺乏高级语义,而且文本在遮蔽建模中的参与度不够。这两个缺点限制了 MIM 在促进跨模态语义配准方面的效果。在这项工作中,我们为视觉语言表征学习提出了一个语义增强型跨模态 MIM 框架(SemMIM)。具体来说,为了给 MIM 提供更具语义意义的监督,我们提出了一种局部语义增强方法,即通过自监督协议学习从全局图像特征中获取高层语义,并通过共享编码空间将其转移到局部补丁编码中。此外,为了实现文本在整个 MIM 过程中的深度参与,我们提出了一种文本引导的掩码策略,并设计了一种在掩码建模和重建目标获取中注入文本信息的有效方法。实验结果验证了我们的方法提高了 MIM 任务在促进跨模态语义配准方面的有效性。与之前具有类似模型大小和数据规模的 VLP 模型相比,我们的 SemMIM 模型在多个下游视觉语言任务中取得了最先进或具有竞争力的性能。
22.Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models
标题:多模态 ArXiv:提高大型视觉语言模型科学理解能力的数据集
author:Lei Li, Yuqi Wang, Runxin Xu, Peiyi Wang, Xiachong Feng, Lingpeng Kong, Qi Liu
publish:Project page: https://mm-arxiv.github.io Fix typos
date Time:2024-03-01
paper pdf:http://arxiv.org/pdf/2403.00231v2
摘要:
以 GPT-4V 为代表的大型视觉语言模型(LVLM)在涉及自然场景中具体图像的各种任务中表现出色。然而,由于缺乏科学领域的训练数据集,它们解释几何图形和科学绘图等抽象图形的能力仍然有限。为了填补这一空白,我们推出了由 ArXivCap 和 ArXivQA 组成的多模态 ArXiv,以增强 LVLMs 的科学理解能力。ArXivCap 是一个由 640 万张图片和 390 万条标题组成的图解标题数据集,这些图片和标题来自 572K 篇 ArXiv 论文,涉及多个科学领域。借鉴 ArXivCap,我们引入了 ArXivQA,这是一个通过提示 GPT-4V 生成的基于科学数字的问题解答数据集。ArXivQA 极大地增强了 LVLM 的数学推理能力,在多模态数学推理基准上实现了 10.4% 的绝对准确率提升。此外,我们还利用 ArXivCap 设计了四个视觉到文本的任务,用于对 LVLMs 进行基准测试。对最先进的 LVLMs 的评估结果表明,它们在处理学术数字的细微语义时非常吃力,而针对特定领域的训练则能大幅提高性能。我们的错误分析揭示了当前 LVLM 对视觉上下文的误读、识别错误以及制作过于简化的标题,为未来的改进提供了启示。
23.Multi-modal Attribute Prompting for Vision-Language Models
标题:视觉语言模型的多模态属性提示
author:Xin Liu, Jiamin Wu, Tianzhu Zhang
date Time:2024-03-01
paper pdf:http://arxiv.org/pdf/2403.00219v1
摘要:
大型预训练视觉语言模型(VLM),如 CLIP,在下游任务中表现出很强的泛化能力,但在少数几个场景中却举步维艰。现有的提示技术主要关注全局文本和图像表征,却忽略了多模态属性特征。这种局限性阻碍了模型感知细粒度视觉细节的能力,并限制了其对更多未见类别的泛化能力。为了解决这个问题,我们提出了一种多模态属性提示方法(MAP),通过联合探索文本属性提示、视觉属性提示和属性级对齐来解决这个问题。所提出的 MAP 有几个优点。首先,我们引入了由文本属性语义增强的可学习视觉属性提示,以自适应地捕捉未知类别图像的视觉属性,从而提高 CLIP 的细粒度视觉感知能力。其次,所提出的属性级对齐是对全局对齐的补充,从而增强了开放词汇对象跨模态对齐的鲁棒性。据我们所知,这是第一项为基于 CLIP 的少量适应建立跨模态属性级对齐的工作。在 11 个数据集上进行的大量实验结果表明,我们的方法与最先进的方法相比表现出色。
这篇关于AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.01-2024.03.05的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!