ChatGPT-4o强大的图像识别能力

2024-05-27 16:44

本文主要是介绍ChatGPT-4o强大的图像识别能力,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

引言

在人工智能的发展历程中,图像识别技术一直是一个重要的研究领域。随着技术的不断进步,AI已经能够识别图片中的内容,并将其转化为语言描述。然而,OpenAI在春季更新中推出的GPT-4o模型,将图像识别技术推向了一个新的高度。本文将详细介绍GPT-4o的图像识别能力,并探讨其在多模态理解、物体识别、光学字符识别(OCR)、面部识别、情绪检测、场景理解、图像质量评估以及多目标检测等方面的应用。

GPT-4o的多模态理解

GPT-4o模型的成功,部分归功于其多模态的特性。它不仅能够理解图像,还能够对视频、声音和文本进行深入的分析和推理。这种能力使得GPT-4o在处理图像时,能够更加全面和深入地理解图像内容,而不仅仅是将其转换为文本。

测试GPT-4o的视觉能力

为了测试GPT-4o的视觉识别能力,我们对其进行了一系列的测试。在测试过程中,我们仅提供了图片和简单的提示“这是什么?”,而不附加任何额外的背景信息。这种测试方式更接近于人们在现实世界中使用图像识别功能的方式。

1、物体识别

第一张图片是一杯红色陶瓷杯中的热咖啡,放在咖啡馆的木桌上的碟子里,背景被模糊处理。目的是看看 GPT-4o 如何解读背景和场景。

GPT-4o 写道:“这张图片展示了一杯热咖啡,盛在红色的茶杯和茶碟中,放在一张质朴的木桌上。背景模糊,描绘了一个舒适的室内环境,人们在一个看似洞穴的咖啡馆或设计独特的石墙室内交谈。焦点是咖啡杯,突出了热饮中升起的蒸汽。”

这是一个非常准确和详细的描述,甚至超越了简单的描述,呈现出一个完整的场景。为了增加趣味,我要求它描述“坐在桌边,手里拿着这杯咖啡的人的想法。”

它回复了一段非常详细的描述,其中一句话特别突出:“这杯咖啡不仅仅是一种饮料;它是一种仪式,是忙碌生活中珍贵的独处和反思时刻。”

2、光学字符识别(OCR)

OCR 是一项与计算一样古老的技术,因此对于任何视觉模型来说都应该是小菜一碟,甚至智能手机也可以在设备上做到这一点。我给了它一张简单的图像,显示了一块风化的木牌的特写,上面用复古的手写字体写着“欢迎来到奥克维尔”。我想要的不仅仅是来自人工智能的文字。

GPT-4o 交付;写道:“这张图片展示了一个复古风格的标志,上面写着‘欢迎来到奥克维尔’。标志看起来风化了,表面粗糙,陈旧,表明它已经暴露在风雨中一段时间了。文字采用红色背景上的粗体白色字体,有一些磨损的迹象,增加了它的怀旧魅力。标志部分被绿色植物包围,表明它可能被放置在户外,可能是在一个名为奥克维尔的城镇或社区的入口处。”

它不仅能正确读取文本,还能提供有关该位置的更多详细信息,识别出它可能是城镇或定居点,并提取标志本身的详细信息。

3、面部识别

这是一项在欧盟有争议并部分被禁止的技术。我提供了一张人工智能生成的40多岁女性的画像,她有深色头发和温暖的棕色眼睛,面带微笑。

GPT-4o 描述道:“这是一张特写肖像,照片中的女子有着一头卷曲的深色头发,面带微笑。焦点在她的脸上,光线充足,显示出细致的皮肤纹理和特征。她表情友善,眼睛直视镜头。背景模糊,突出了主体。”

我想了解更多信息,包括年龄。于是我问它“这个人多大了,她的情绪状态如何?”它回答道,她大约在30到40岁之间,情绪状态很好,并解释道:“总体印象是,她的情绪状态很好,可能感觉很充实、很安心。”

4、情绪检测

接下来,我测试了一张表情忧郁的老年男子的照片。GPT-4o 能否注意到情绪并准确描述场景呢?它唯一的输入仍然是“这是什么”和图片。

GPT-4o 的描述是:“这是一位老人坐在户外长椅上的肖像,很可能是在公园里。光线表明这是在黄金时段拍摄的,因为柔和的阳光照亮了他的脸。男子的表情若有所思,略带忧郁或沉思。他穿着有领衬衫和西装外套,背景模糊,突出了男子,同时提供了一个令人愉悦的自然场景。”

人工智能模型完全达到了我的期望,描述了场景并对男子的情绪状态进行了合理推测。

5、场景理解

GPT-4o 能多好地从图像中描述场景并识别场景中的元素?这是一项有用的技能,因为人工智能模型越来越多地用于帮助描述现实世界。这是 ChatGPT 中新语音模式的关键功能之一。

GPT-4o 声明:“这张图片描绘了一个阳光明媚的日子里热闹的户外农贸市场。帐篷下设立了各种摊位,展示着大量新鲜农产品,包括水果、蔬菜和其他商品。人们在市场里走来走去,浏览、购物,并与摊贩互动。市场似乎坐落在一个绿树成荫的宜人区域,背景中可见绿叶。市场氛围看起来充满活力和社区感,重点是当地的新鲜产品。”

没什么可说的。它对图片和情况的描述非常准确。它提供的细节比我预期的要多,突出介绍了一些正在销售的产品。

6、图像质量评估

我让 Ideogram 在网格中生成四张几乎相同的图像,每张图像的分辨率或构图略有不同。我想看看 GPT-4o 如何描述这些差异。它可以处理单张图像,但面对四张略有不同的图像呢?

GPT-4o 写道:“该图像由四张以网格形式排列的风景照片组成,每张都展示了云彩天空下绿草如茵、野花盛开的连绵起伏的山丘的美景。”

文章继续道:“左上角的照片呈现柔和的粉色和蓝色渐变天空,暗示黎明或黄昏,山丘沐浴在温暖的金色光线中,衬托出鲜活的绿草和黄色、白色的花朵。右上角的照片展示类似场景,但色彩柔和,暗示清晨或傍晚。左下方的照片色调较冷,蓝色天空更明显,暗示中午的光线较柔和。右下方的照片更暖和、更饱和,粉红色天空暗示日落的暖光。光线和色调的变化展示了一天中不同时间和摄影技术对同一景观氛围和外观的影响。”

虽然它没有理解四幅图像网格的比较目的——构图比较——但能够分别描述每幅图像,令人印象深刻。实际上,它自行进行了图像比较。

7、多目标检测

最后,如果模型要成为有用的工具,必须能够在拥挤的场景中检测多个物体。测试图片显示了一张杂乱的桌子,我希望它能检测到至少一个小物体。

GPT-4o 写道:“这幅图描绘了一个现代化、井然有序的办公空间,背景透过大窗户可见城市景观。桌上整齐摆放着各种办公物品,包括一台位于中央的笔记本电脑、一盏金属台灯和一个咖啡杯,营造出轻松而专注的氛围。散落的笔记本和纸张表明人们在积极工作和做笔记,而一盆小盆栽增添了一丝绿意。桌上还有一张两人的相框照片,增添了个人色彩。办公空间备有钢笔、铅笔和记事本等,确保了办公的实用性。城市天际线与现代高层建筑的背景营造出充满活力和鼓舞人心的环境。”

我让它在图像中找到我的眼镜,它正确地回答:“你的眼镜在笔记本电脑右边的桌子上,放在笔记本上面。”

测试表明它确实有效。我接着问了花盆的颜色,它也准确回答。

概括

通过一系列的测试,我们可以看到GPT-4o在图像识别方面的出色表现。与以往的视觉模型相比,GPT-4o没有犯任何错误,无论是在物体识别、颜色识别还是品牌识别方面。这标志着OpenAI在多模态领域的重大进步。

随着AI技术的不断发展,GPT-4o等模型的出现,为我们打开了一扇通往未来的大门。我们有理由相信,AI将在图像识别、多模态理解以及人机交互等领域发挥越来越重要的作用。让我们拭目以待,AI将如何改变我们的世界。

还没有GPT4.0的可以看看【GPT4.0】怎样才能使用GPT4.0?如何升级GPT4.0?

这篇关于ChatGPT-4o强大的图像识别能力的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1008034

相关文章

揭秘未来艺术:AI绘画工具全面介绍

📑前言 随着科技的飞速发展,人工智能(AI)已经逐渐渗透到我们生活的方方面面。在艺术创作领域,AI技术同样展现出了其独特的魅力。今天,我们就来一起探索这个神秘而引人入胜的领域,深入了解AI绘画工具的奥秘及其为艺术创作带来的革命性变革。 一、AI绘画工具的崛起 1.1 颠覆传统绘画模式 在过去,绘画是艺术家们通过手中的画笔,蘸取颜料,在画布上自由挥洒的创造性过程。然而,随着AI绘画工

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

AI儿童绘本创作

之前分享过AI儿童绘画的项目,但是主要问题是角色一致要花费很长的时间! 今天发现了这款,非常奈斯! 只需输入故事主题、风格、模板,软件就会自动创作故事内容,自动生成插画配图,自动根据模板生成成品,测试效果如下图。 变现方式:生成儿童绘本发布到各平台,吸引宝妈群体进私域。  百度网盘 请输入提取码百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全

人工和AI大语言模型成本对比 ai语音模型

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。 但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多

探索Elastic Search:强大的开源搜索引擎,详解及使用

🎬 鸽芷咕:个人主页  🔥 个人专栏: 《C++干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 引入 全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选,相信大家多多少少的都听说过它。它可以快速地储存、搜索和分析海量数据。就连维基百科、Stack Overflow、

【新闻】AI程序员要来了吗?阿里云官宣

内容提要 6 月 21 日,在阿里云上海 AI 峰会上,阿里云宣布推出首个AI 程序员。 据介绍,这个AI程序员具备架构师、开发工程师、测试工程师等多种岗位的技能,能一站式自主完成任务分解、代码编写、测试、问题修复、代码提交整个过程,最快分钟级即可完成应用开发,大幅提升研发效率。 近段时间以来,有关AI的实践应用突破不断,全球开发者加速研发步伐。有业内人士坦言,随着大模型性能逐渐提升,AI应

AI元宇宙

随着科技的迅猛发展,人工智能(AI)迎来了一个宇宙大爆发的时代。特别是以GPT为代表的生成式大模型的诞生和不断进步,彻底改变了人们的工作和生活方式。程序员与AI协同工作写代码已成为常态,大模型不仅提高了工作效率,还为人类带来了无限的可能性。 AI元宇宙http://ai.toolxq.com/#/如同生物进化出眼睛打开了三维世界的元宇宙之后,GPT打开了人+AI工作模式的新时代,程序员的人生被划

AI学习指南机器学习篇-朴素贝叶斯处理连续特征和离散特征

AI学习指南机器学习篇-朴素贝叶斯处理连续特征和离散特征 在机器学习领域,朴素贝叶斯是一种常用的分类算法,它的简单性和高效性使得它在实际应用中得到了广泛的应用。然而,在使用朴素贝叶斯算法进行分类时,我们通常会面临一个重要的问题,就是如何处理连续特征和离散特征。因为朴素贝叶斯算法基于特征的条件独立性假设,所以对于不同类型的特征,我们需要采取不同的处理方式。 在本篇博客中,我们将探讨如何有效地处理

AI赋能天气:微软研究院发布首个大规模大气基础模型Aurora

编者按:气候变化日益加剧,高温、洪水、干旱,频率和强度不断增加的全球极端天气给整个人类社会都带来了难以估计的影响。这给现有的天气预测模型提出了更高的要求——这些模型要更准确地预测极端天气变化,为政府、企业和公众提供更可靠的信息,以便做出及时的准备和响应。为了应对这一挑战,微软研究院开发了首个大规模大气基础模型 Aurora,其超高的预测准确率、效率及计算速度,实现了目前最先进天气预测系统性能的显著