Woodpecker

2024-03-19 11:10
文章标签 woodpecker

本文主要是介绍Woodpecker,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker

  • 论文地址: https://arxiv.org/pdf/2310.16045.pdf

  • 项目地址: https://github.com/BradyFU/Woodpecker

视觉幻觉是常见于多模态大语言模型(Multimodal Large Language Models, MLLMs)的一个典型问题,它指的是"模型输出的描述与图片内容不相符"这一现象,如下图所示:

图中体现了两种幻觉,红色部分错误地描述了狗的颜色(属性幻觉),蓝色部分描述了图中实际不存在的事物(目标幻觉)。幻觉对模型的可靠性产生了显著的负面影响,因此引起了许多研究者的重视。

以往的方法主要集中在MLLM本身,通过在训练数据以及架构上进行改进,以重新微调的方式训练一个新的MLLM。这种方式会造成较大的数据构建和训练开销,且较难推广到各种已有的MLLMs。

近日,来自中科大以及腾讯优图实验室的研究者们提出了一种免训练的即插即用的通用架构 “啄木鸟(Woodpecker)” ,论文:Woodpecker: Hallucination Correction for Multimodal Large Language Models ,通过修正的方式解决MLLM输出幻觉的问题。

Woodpecker可以修正各种场景下模型输出的幻觉,并输出检测框作为引证,表明相应的目标确实存在。

例如,面对描述任务,Woodpecker可以修正其中带有幻觉的部分。

方法

Woodpecker的架构如下,它包括五个主要步骤:  关键概念提取、问题构造、视觉知识检验、视觉断言生成 以及幻觉修正。

关键概念提取: 关键概念指的是MLLM的输出中最可能存在幻觉的存在性目标,例如上图描述中的“自行车;垃圾桶;人”。我们可以Prompt大语言模型来提取出这些关键概念,这些关键概念是后续步骤进行的基础;

问题构造: 围绕着前一步提取出的关键概念,Prompt大语言模型来提出一些有助于检验图片描述真伪的问题,如“图中有几辆自行车?”、“垃圾桶边上的是什么?”等等;

视觉知识检验: 使用视觉基础模型对提出的问题进行检验,获得与图片以及描述文本相关的信息。例如,我们可以利用GroundingDINO来进行目标检测,确定关键目标是否存在以及关键目标的数量。这里我们认为像GroundingDINO这类视觉基础模型对图片的感知能力比MLLM本身的感知能力更强。对于目标颜色等这类属性问题,我们可以利用BLIP-2来进行回答。BLIP-2这类传统VQA模型输出答案的长度有限,幻觉问题也更少;

视觉断言生成: 基于前两步中获得的问题以及对应的视觉信息,合成结构化的“视觉断言”。这些视觉断言可以看做与原有MLLM的回答以及输入图片相关的视觉知识库;

幻觉修正: 基于前面得到的,使用大语言模型对MLLM的文本输出进行逐一修正,并提供目标对应的检测框信息作为视觉检验的参照。

实验效果

实验选取了几个典型的MLLM作为基线,包括: LLaVA,mPLUG-Owl,Otter,MiniGPT-4 论文中首先测试了Woodpecker在面对目标幻觉时的修正能力,在POPE验证集的实验结果如下表所示:

结果表明在不同的MLLM上应用Woodpecker修正后,均有不同程度的提升。在随机设定下,Woodpecker给MiniGPT-4和mPLUG-Owl和在准确率指标上分别带来了30.66%和24.33%的提升。

此外,研究者还应用更全面的验证集MME,进一步测试Woodpecker在面对属性幻觉时的修正能力,结果如下表所示:

从表中可见Woodpecker不仅在应对目标幻觉时有效,在修正颜色等属性幻觉时也具有出色的表现。LLaVA的颜色得分从78.33分大幅提升到155分!经过Woodpecker修正后,四个基线模型在四个测试子集上的总分均超过500分,在总体感知能力上获得了显著提升。

为了更直接地衡量修正表现,更直接的方式是使用开放评测。不同于以往将图片转译后送入纯文本GPT-4的做法,文章利用OpenAI最近开放的视觉接口,提出使用GPT-4(Vision)对修正前后的图片描述直接对下列两个维度进行打分: whaosoft aiot http://143ai.com 

  • 准确度:模型的答复相对于图片内容是否准确

  • 详细程度:模型答复的细节丰富度

在该实验条件下,实验结果如下表所示:

结果表明经过Woodpecker修正后图片描述的准确性有一定的提升,这说明该框架可以有效修正描述中幻视的部分。另一方面,Woodpecker修正后引入的定位信息丰富了文本描述,提供了进一步的位置信息,从而提升了细节丰富度。GPT-4V辅助的评测样例如下图所示:

感兴趣的读者,可以读论文进一步了解更多内容。

  • 论文地址: https://arxiv.org/pdf/2310.16045.pdf

  • 项目地址: https://github.com/BradyFU/Woodpecker

这篇关于Woodpecker的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/825789

相关文章

POC EXP | woodpecker插件编写

woodpecker插件编写 目录 woodpecker介绍woodpecker使用插件编写 安装环境 woodpecker-sdkwoodpecker-request 创建Maven项目 Confluence OGNL表达式注入漏洞插件编写 创建Package包和Class类编写POC 漏洞POC代码编写导出jar包将jar包放入woodpecker的plugin目录运行woodpecker

Woodpecker: Hallucination Correction for Multimodal Large Language Models----啄木鸟:多模态大语言模型的幻觉校正

Abstract 幻觉是笼罩在快速发展的多模态大语言模型(MLLM)上的一个大阴影,指的是生成的文本与图像内容不一致的现象。为了减轻幻觉,现有的研究主要采用指令调整的方式,需要用特定的数据重新训练模型。在本文中,我们开辟了一条不同的道路,引入了一种名为 Woodpecker 的免训练方法。就像啄木鸟治愈树木一样,它从生成的文本中挑选并纠正幻觉。具体来说,啄木鸟由五个阶段组成:关键概念提取、问题制