别再吹 GPT-4V 了!连北京烤鸭都不认识,你敢信??

2023-10-25 20:04
文章标签 认识 gpt 4v 北京烤鸭

本文主要是介绍别再吹 GPT-4V 了!连北京烤鸭都不认识,你敢信??,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图片

夕小瑶科技说 原创
作者 | 智商掉了一地、ZenMoore

GPT-4 被吹的神乎其神,作为具备视觉能力的 GPT-4 版本——GPT-4V,也被大众寄于了厚望。但如果告诉你,GPT-4V 连图片上的“北京烤鸭”和“广西烤鸭”都分不清楚,你是否觉得大跌眼镜??

有图有证据!!

图片

Prompt 是:图片中是否有“北京烤鸭”?

结果 GPT-4V 和 LLaVa-1.5 都面向“广西烤鸭”的图片,回答了——是的,有北京烤鸭。

为什么“OpenAI 主导的大模型路线都要进化到 AGI 了”,却依然在犯这么让人大跌眼镜的错误?

这就要从下面这篇论文开始说起……


文章速览

现如今,NLP 和 CV 的结合开启了 AI 领域的一种革命性模式。而大型语言模型(LLM)与视觉模型结合,进一步融入到视觉-语言模型(VLM)中,催生了大型视觉-语言模型(LVLM),这对于显著提升图像推理任务的表现起到了关键的推动作用。

最新发布的 GPT-4V(ison) 和 LLaVA-1.5 等模型已经证实了这一点,展示了前所未有的图像理解和推理能力。但 LVLM 也存在一些问题:

  • 这些模型中的强大语言先验知识有时可能会盖过视觉上下文,成为双刃剑:它们可能会忽视图像上下文,仅依赖语言先验知识进行推理,有时甚至是相互矛盾的。这种语言成分在决策中的主导地位被称为“语言幻觉”。

  • 虽然视觉模块在这些 LVLM 中是必不可少的,但与语言部分相比,它们的性能较弱。这种不平衡可能导致“视觉错觉”,即 LLM 对错误的视觉解释过于自信

具体来说,“语言幻觉”是一种不基于感觉输入的知觉,而“视觉错觉”是对正确感觉输入的错误解释

为了研究 VLM 的这两种错误类型(语言幻觉和视觉错觉),作者设计了名为 HallusionBench 的图像-上下文推理基准测试,用于深入研究图像和上下文推理的复杂性。此外,还对最新发布的 GPT-4V(ision) 和 LLaVA-1.5 进行了深入研究,探讨了它们的视觉理解能力。

论文题目:
HallusionBench: You See What You Think? Or You Think What You See? An Image-Context Reasoning Benchmark Challenging for GPT-4V(ision), LLaVA-1.5, and Other Multi-modality Models

论文链接:
https://arxiv.org/abs/2310.14566

Github 地址:
https://github.com/tianyilab/HallusionBench

作者对 HallusionBench 进行了深入探索,并详细分析了一些 SOTA LVLM(如GPT-4V 和 LLaVA-1.5)无法处理的示例,并发布了这份尚在进行中的初步报告。明确了这些失败案例主要由两个因素导致:语言幻觉视觉错觉。语言幻觉是由于这些模型中 LLM 参数记忆导致的推理偏见,而视觉错觉则是由于对图像上下文中视觉模式的误解。

这不仅揭示了当前关于 VLM 幻觉的不足,也为未来可能的改进铺平了道路。我们有理由期待下一代的 LVLM 将更加强大、平衡和准确。


具体分析

HallusionBench 是首个专门针对 VLM 的视觉错觉和知识幻觉的基准测试。它包含大约 200 个视觉问答对,其中近一半由人类专家生成。这些问答对相关的图像包括各种类型,如未经编辑的错觉图像、图表、地图、海报、视频,以及手工制作或编辑过的图像。这些图像涵盖了各种主题,包括数学、计数、文化、卡通、体育和地理等。

在这部分,作者首先定义了 HallusionBench 中的两种视觉问题类型:视觉依赖视觉补充,讨论如何为实验设计对照组。接着,探讨可能导致回答错误的两个主要因素:视觉错觉语言幻觉。最后,在每个主要类别中展示不同子类别的失败示例,并对其进行详细分析。

1. 视觉问题类型和对照组的分类

1.1 视觉依赖

视觉依赖问题:在缺乏视觉背景的情况下,无法给出明确答案的问题。这类问题通常涉及到图像本身或图像中的内容。举例来说,如果没有提供图 1(见后文),就无法明确回答“右边的橙色圆圈和左边的橙色圆圈大小是否一样?”这个问题。

目标:旨在评估视觉常识知识和视觉推理能力,研究和数据集构建都是基于以下问题进行的:

  1. 这个模型的视觉理解和推理技能表现如何?

  2. 参数化记忆对回答有何影响?

  3. 这个模型能否理解多个图像之间的时间关系?

控制组:在互联网上找到的原始图像和基于这个原始图像编辑过的图像,基于它们提出同样的问题。作者只对原始图像进行了小部分的修改,这些修改会带来不同的含义,从而影响原始答案的正确性。这些被编辑过的图像称为"Hard Negative Examples"。

1.2 视觉补充

视觉补充问题:即使没有视觉输入,也能回答的问题。这类问题中,视觉部分只提供了额外的信息。以后文的图 13 为例,GPT-4V 可以回答“新墨西哥州比得克萨斯州大吗?”这个问题,而无需依赖图像。评估目标是 GPT-4V 和 LLaVA-1.5 是否能够依据图像来回答问题,而不是依赖它们的参数化记忆。

目标:为了评估视觉推理能力,以及参数化记忆和图像上下文之间的平衡。在这个类别下,研究和数据集的构建由以下问题引导的:

  1. 如果模型无法从参数化记忆中找到答案,会对图像产生幻觉吗?

  2. 如果模型从参数化记忆中找到了答案,会从视觉补充中获取更多细节来更好地回答问题吗?(尤其是在两者信息冲突或参数化记忆过时的情况下)

  3. 模型能否有效处理包含大量信息的视觉材料,如图表和地图等,并用于回答问题?有哪些操作可能会干扰信息的提取?

控制组:在提问时,有时使用图像作为补充信息,有时不使用。这些补充的视觉背景可以提供更多细节,有助于问题的回答,但也可能会与现实世界中的信息产生冲突。

2 错误示例的分类

作者分析了错误答案,并将原因归为两种主要类型:

  • 视觉错觉:源于对输入图像的视觉识别和理解的失败,模型无法获得准确的信息或正确推理图像。

  • 语言幻觉:模型会根据其参数化记忆,对输入和图像背景做出错误的预设假设。模型应当根据问题的设定来做出回应,而非忽视问题或对图像做出错误的假设。

两种示例

视觉依赖示例

从图 1、图 2 和图 3 的著名错觉中发现,GPT-4V 在识别所有错觉案例和知道它们的名称方面,比 LLaVA-1.5 更有知识。但是,当基于编辑过的图像回答问题时,GPT-4V 并未能给出准确的答案。这可能是因为 GPT-4V 更倾向于依赖其参数化记忆来生成答案,而非分析图像。相比之下,LLaVA-1.5 在处理原始图像和编辑过的图像时表现不佳,这表明 LLaVA-1.5 的视觉感知能力有限

在图 1 中,GPT-4V 更倾向于依据其参数化记忆中已有的知名光学错觉来生成答案,而非实际的视觉背景。即使是之前未出现过的手工设计示例(见图 1 的下方),该模型仍不能根据图像背景来回答。

图片

▲图1:将视觉错觉、语言幻觉或可能的混合情况下的错误答案进行了突出显示

在图 2 中,GPT-4V 能识别出许多光学错觉的案例,但同时也容易被图像的场景与布局所误导。这两个模型在识别和测量长度方面的表现都不尽如人意。

图片

▲图2

在图 3 中,GPT-4V 能识别这些错觉,但在根据实际图像上下文准确回答问题上,其表现并不理想。

图片

▲图3

从图 4 和图 5 的例子来看,GPT-4V 和 LLaVA-1.5 都不能准确地识别出平行线、正三角形、多边形以及其他的数学定理。这表明,对于 GPT-4V 来说,几何和数学仍然是一项具有挑战性的任务。

具体地,在图 4 的上半部分,GPT-4V 和 LLaVA-1.5 能够记住著名的数学定理,但却无法在图像中识别出正确的平行线。在图 4 的下半部分,GPT-4V 无法判断两条线是否直线。推测这种失败是缺乏几何识别能力所导致的

图片

▲图4

如图 5 所示,作者改变了三角形的重要几何属性,但 GPT-4V 和 LLaVA-1.5 都未能识别出这些变化。例如,图 5 上半部分编辑后的图像显然不是一个三角形,下半部分编辑后的图像显然不是一个直角三角形。由此推测这种失败是由于缺乏几何识别能力。

图片

▲图5

作者在图 6 中进一步研究了 GPT-4V 和 LLaVA-1.5 在光学字符识别上的表现,同时在图7中对它们的图像识别能力进行了探讨。观察发现,当图像中的字符被编辑时,GPT-4V 和 LLaVA-1.5 很容易被误导。这表明,它们生成答案的依据是自身的参数化记忆,而非视觉推理。原因在于原始图像与编辑后的图像之间的差异非常明显。

具体地,在图 6 中,作者还标出了一些广告,它们展示了一些著名的地方菜肴,但菜肴的地区特性被修改了。在这两种情况下,GPT-4V 和 LLaVA-1.5 都没有考虑到上下文,忽视了图像信息,仍然给出了文本中提到的这些食物所知名的地区作为答案。

图片

▲图6

在图 7 的上半部分,GPT-4V 和 LLaVA-1.5 的判断受到参数化记忆和刻板判断的影响,这意味着它们没有认识到图像中的女孩并非玄奘的徒弟。尽管 LLaVA-1.5 在图像中检测到一个女孩和两个男人,但它仍然错误地将女孩视为玄奘的徒弟。在图 7 的下半部分,由于答案的不确定性,GPT-4V 使用了“类似”这个词,但错误地将其与 Air Jordan 品牌联系在一起。由此推测这个错误是由于语言幻觉造成的。

图片

▲图7

作者受到了前人研究的启发,他们展示了 GPT-4V 在视频理解方面的潜力。因此,也在图 8 和图 9 中进一步研究了更多例子(包括一些帧序列)。正序列和反序列在语义上有着相反的含义,比如图 8 中的“消失与出现”和“停车与离开”。然而,通过比较发现,即便这些序列代表了不同的动作,GPT-4V 也无法区分图像的正序列和反序列。这说明在视频推理能力方面,GPT-4V 还有很大的提升空间。

图片

▲图8

图片

▲图9

视觉补充示例

在图 10、图 11 和图 12 中,如果没有图像,GPT-4V 无法给出明确的答案。当有图像背景时,GPT-4V 和 LLaVA-1.5 仍然不能正确理解图表,这表明它们的图表推理能力有限。在图 18 的第二个示例中,当旋转图表后,GPT-4V 的预测完全改变了。

有时候,如果没有上下文,问题可能没有明确的答案。如图 10 所示,在这种情况下,GPT-4V 能很好地处理,会给出不确定的答案,而不会产生幻觉。然而,即使给定了包含所有信息的图表作为输入,GPT-4V 和 LLaVA-1.5 仍然无法提取正确的信息来给出正确的答案。

图片

▲图10

如图 11 所示,GPT-4V 能够处理不确定的查询,并给出不产生幻觉的不确定答案。当图表作为输入时,GPT-4V 能够正确回答问题。

图片

▲图11

相较之下,LLaVA-1.5 在没有图像上下文的情况下,能够很好地回答问题。但一旦加入图像,就会出现混淆,其答案变得模糊,且过于依赖问题的提出方式,这是由于其视觉能力有限。

此外,LLAVa 的答案中出现了幻觉,即 1000 GBP,这个答案是从图表的标题中提取出来的,1000 GBP 代表 2001 年到 2019 年的总数。由此推测这个错误是由于缺乏视觉推理能力所导致的。

在图 12 中,GPT-4V 能处理不确定的查询,会给出不确定的答案,而不会产生幻觉。但如果输入是一个图表,GPT-4V 就无法正确理解。而 LLaVA-1.5 倾向于依赖参数化记忆来生成答案,因为无论有无图像上下文,它都会生成相同的答案。

图片

▲图12

在图 13、图 14、图 16、图 17和图 18中,如果没有提供图像,GPT-4V 和 LLaVA-1.5 都会给出确定的答案。然而,一旦提供了图像,无论是图表、表格还是地图,我们发现它们更愿意依赖自身的知识来回答问题,而不是去分析图像。这可能是因为GPT-4V和LLaVA-1.5对文本推理的依赖明显,常常优先于视觉推理。

如图 13 所示,在没有上下文的情况下,GPT-4V 和 LLaVA-1.5 都能给出肯定且正确的答案。然而,当给出一张被编辑过且与常识相矛盾的地图时,GPT-4V 和 LLaVA-1.5 无法正确理解。尽管他们回答问题的方式表明回复是基于提供的地图,但 GPT-4V 和 LLaVA-1.5 更倾向于根据自身的参数化记忆来生成答案,而非实际的视觉上下文

图片

▲图13

通过观察图 14 和图 15,可以发现 LLaVA-1.5 的知识存在不准确之处。例如,它错误地声称"π 的值不在 3.1415926 和 3.1415927 之间",还错误地认为"北卡罗来纳州位于特拉华州的北方"。这些观察结果进一步证实了:GPT-4V 的知识储备比 LLaVA-1.5 丰富

在没有图像背景的情况下,如图 14所示,GPT-4V 和 LLaVA-1.5 都给出了肯定的答案,但只有 GPT-4V 的答案是正确的。因此可得出结论,GPT-4V 比 LLaVA-1.5 的知识性更强。当改变了地图的视觉输入后,由于强大的参数记忆,这两个模型都无法推理出四个州之间的位置关系。

图片

▲图14

如图 15 所示,在没有图像背景的情况下,GPT-4V 给出了肯定的答案,而 LLaVA-1.5 则因为无法理解文本而给出了一个在技术上正确但无关的答案。当改变 π 值作为视觉输入时,两个模型都无法从图像中解读出这个值。

图片

▲图15

如图 16 所示,GPT-4V 和 LLaVA-1.5 两个模型都给出了肯定且正确的答案,但这些答案缺乏上下文。GPT-4V 提供的答案更为严谨,因为它强调了这个知识的时间依赖性。然而,根据图表中的数据,两个模型都未能正确回答问题。由此推测这个失败是参数记忆过拟合所导致的

图片

▲图16

在没有视觉输入的情况下,如图 17 所示,GPT-4V 和 LLaVA-1.5 都能给出肯定且正确的答案。当有表格作为视觉输入时,GPT-4V 会尝试根据视觉信息来回答,但却提取了错误的信息。具体来说,GPT-4V 回答“中国有 36 枚金牌”,但实际上图表显示的是美国有 36 枚金牌。LLaVA-1.5 则是基于参数化记忆来回答问题,它会分别对问题和表格进行回应。

图片

▲图17

如图 18 所示,在没有图像背景的情况下,GPT-4V 和 LLaVA-1.5 都给出了肯定的答案,但只有 GPT-4V 给出了正确且最严谨的答案。当使用图表作为视觉输入时,GPT-4V 能够忠实地遵循图表中的信息,而 LLaVA-1.5 则试图基于参数化记忆来回答问题。然而,当翻转图表后,GPT-4V 的预测完全改变了。与图 18 上部分的图表相比,这种失败可以归因于视觉错觉。

图片

▲图18

总结

随着 LLM 与多模态研究的涌现,人工智能领域近些年来迎来了革命性的变革,将 NLP 和 CV 相结合。这种结合不仅催生了大型视觉-语言模型(LVLM),还进一步提升了图像推理任务的表现。然而,LVLM也存在一些问题,比如语言幻觉和视觉错觉。

为了深入研究这些问题,本文的作者推出了 HallusionBench,主要用于对 VLM 进行基准测试,尤其是在容易因语言幻觉或视觉错觉导致失败的困难案例中。并深度探讨了与 GPT-4V 和 LLaVA1.5 相关的各种示例和失败案例,具体为:

  1. 在 HallusionBench 中,当 GPT-4V 和 LLaVA-1.5 对问题有先验知识时,它们常常受到语言幻觉的困扰。它们倾向于优先考虑先验知识,导致在分析的问题中,有 90% 以上的答案是错误的。模型需要平衡参数化记忆和上下文之间的关系

  2. 即使 GPT-4V 和 LLaVA-1.5 对 HallusionBench 中的问题没有参数化记忆或先验知识,它们仍然容易受到视觉错觉的影响。它们倾向于对几何和数学图像、视频(多个图像)、复杂图表等给出错误答案。目前的视觉语言模型的视觉能力还很有限。

  3. 在 HallusionBench 中,GPT-4V 和 LLaVA-1.5 很容易被简单的图像操作误导,包括图像翻转、顺序颠倒、遮蔽、光学字符编辑、物体编辑和颜色编辑。现有的视觉语言模型无法处理这些操作。

  4. 尽管 GPT-4V 支持多图,但它无法捕捉多个图像的时间关系,在 HallusionBench 中无法回答时间推理问题。这些模型缺乏真正的时间推理能力。

  5. 在 HallusionBench 中,LLaVA-1.5 的知识储备比 GPT-4V 少,有时会犯常识性错误。

最后,作者表示仍在扩充数据库,并将尽快在 Github 上公开。这项研究为未来更强大、平衡和准确的 LVLM 铺垫了道路,期待通过详细研究这些实例,能为未来的研究提供一些观察结果和关键洞见。


这篇关于别再吹 GPT-4V 了!连北京烤鸭都不认识,你敢信??的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/284866

相关文章

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

每天认识几个maven依赖(ActiveMQ+activemq-jaxb+activesoap+activespace+adarwin)

八、ActiveMQ 1、是什么? ActiveMQ 是一个开源的消息中间件(Message Broker),由 Apache 软件基金会开发和维护。它实现了 Java 消息服务(Java Message Service, JMS)规范,并支持多种消息传递协议,包括 AMQP、MQTT 和 OpenWire 等。 2、有什么用? 可靠性:ActiveMQ 提供了消息持久性和事务支持,确保消

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

4B参数秒杀GPT-3.5:MiniCPM 3.0惊艳登场!

​ 面壁智能 在 AI 的世界里,总有那么几个时刻让人惊叹不已。面壁智能推出的 MiniCPM 3.0,这个仅有4B参数的"小钢炮",正在以惊人的实力挑战着 GPT-3.5 这个曾经的AI巨人。 MiniCPM 3.0 MiniCPM 3.0 MiniCPM 3.0 目前的主要功能有: 长上下文功能:原生支持 32k 上下文长度,性能完美。我们引入了

GPT系列之:GPT-1,GPT-2,GPT-3详细解读

一、GPT1 论文:Improving Language Understanding by Generative Pre-Training 链接:https://cdn.openai.com/research-covers/languageunsupervised/language_understanding_paper.pdf 启发点:生成loss和微调loss同时作用,让下游任务来适应预训

速通GPT-3:Language Models are Few-Shot Learners全文解读

文章目录 论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

SpringMVC-1.认识及配置

SpringMVC是一个基于请求驱动的Web框架,和structs一样是目前最优秀的基于MVC框架,现在的项目一般都使用SpringMVC代替Structs。 MVC模式中,Model是应用程序中用于处理应用程序数据逻辑的部分,通常模型对象在数据库中存取数据。View是应用程序中处理数据显示的部分,通常视图是依据模型数据创建。Controller是应用程序中处理用户交互的部分。通常控制器负责从视

【H2O2|全栈】关于HTML(1)认识HTML

HTML相关知识 目录 前言 准备工作 WEB前端是什么? HTML是什么? 如何运行HTML文件? 标签 概念 分类 双标签和单标签 行内标签和块标签 HTML文档结构 预告和回顾 UI设计相关 Markdown | Md文档相关  项目合作管理相关  后话 前言 本系列的博客将分享前端HTML的相关知识点。 本篇作为本系列的第一期博客,主要讲解H

认识鬼火引擎

一、Irrlicht简介 (1)概念Irrlicht引擎是一个用C++书写的高性能实时3D引擎,可以应用于C++程序或者.NET语言中。通过使用Direct3D(Windows平台)、OpenGL 或它自己的软件着色程序,可以实现该引的完​全跨平台。尽管是开源的,该Irrlicht库提供了可以在商业级的3D引擎上具有的艺术特性,例如动态的阴影,粒子系统,角色动画,室内和室外技术以及碰撞检测等。(

Jenkins--pipeline认识及与RF文件的结合应用

什么是pipeline? Pipeline,就是可运行在Jenkins上的工作流框架,将原本独立运行的单个或多个节点任务连接起来,实现单个任务难以完成的复杂流程编排与可视化。 为什么要使用pipeline? 1.流程可视化显示 2.可自定义流程任务 3.所有步骤代码化实现 如何使用pipeline 首先需要安装pipeline插件: 流水线有声明式和脚本式的流水线语法 流水线结构介绍 Node: