图像识别领域四大天王谁最强?谷歌实力碾压微软IBM亚马逊

本文主要是介绍图像识别领域四大天王谁最强?谷歌实力碾压微软IBM亚马逊,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=1

640?wx_fmt=png

来源:perficientdigital

编辑:大明、张佳

本文转自公众号:新智元

【导读】作为机器学习最热门的领域之一,图像识别是判断AI聪明与否的一个重要标准。作为主要的参与者,微软、IBM、谷歌和亚马逊在这项技术上投入巨资,那么,到底哪一家做得更好呢?研究发现,谷歌在图像识别方面取得了81.7%的准确率,仅次于人类,四家中排名第一。

机器学习最热门的领域之一是图像识别。有许多主要参与者在这项技术上投入巨资,包括微软,IBM,谷歌和亚马逊。但哪一个做得最好?

 

Perficient Digital的研究团队发布了一份对这四家科技巨头图像识别的研究报告。报告显示,谷歌在图像识别方面取得了81.7%的准确率,在四家中最高;IBM在图像识别方面取得了55.6%的准确率,在四家中最低

 

本次研究涉及的图像识别引擎包括:

 

  • 亚马逊AWS Rekognition

  • 谷歌Vision

  • IBM Watson

  • 微软Azure Computer Vision

 

本次研究使用了2000张图像,分为四类:

 

  • 图表

  • 风景

  • 人物

  • 产品

 

每个图像识别引擎返回的标签总数如下:

640?wx_fmt=png

研究团队使用两种不同的方法来评估每个引擎:

 

  • 来自每个图像识别引擎的标签的准确度(500个图像),称之为“准确度评估”。

  • 来自图像识别引擎的标签是否是描述每个图像的最佳匹配(2000个图像),这被称为“匹配人类描述评估”。

 

一、图像识别引擎标签准确度

在准确性评估中,对500张图像中的每一张,图像识别引擎的每一个标签都要评估其是否准确。有“准确、不准确和我不确定”三个选项(只有1.2%的标签被标记为“不确定”)。

 

这里的区别在于标签可以被判断为准确,即使它是人类在描述图像时不太可能使用的标签。例如,室外场景的图片可能被引擎标记为“全景”,并且完全准确,但仍然不是用户想要描述图像的标签之一。

 

考虑到这一点,下表是每个引擎的得分:

 

640?wx_fmt=png

 

很明显,赢家是谷歌Vision(准确率81.7%),亚马逊AWS Rekognition排在第二位(准确率77.7%),微软Azure排名第三(准确率75.8%),IBM Watson排名最后(准确率55.6%)。

 

置信水平

 

以上分数涵盖每个引擎返回的所有标记。但是,每个引擎也会返回他们对每个标记的置信度的分数。这使它能够返回更具推测性的标签。以下是每个引擎的置信度得分汇总的数据:

640?wx_fmt=png

以下是引擎具有90%或更高置信度的所有图像:

 

640?wx_fmt=png

这些数据令人着迷的是,在纯粹的准确性基础上,四个引擎中的三个(亚马逊,谷歌和微软)的得分高于人类标记,最高置信度超过90%。

 

当我们将置信水平降至80%或更高时,让我们看看这是如何变化的:

640?wx_fmt=png

在这个级别,我们看到“人手标记”的分数基本上与我们在亚马逊AWS Rekognition,谷歌Vision和微软Azure Computer Vision中看到的分数相同。

 

可以预期,给出低置信度的标签的准确性会降低,事实证明是这样的:

 

640?wx_fmt=png

对于接下来的几个图表,研究人员通过图像识别引擎在许多类别的置信水平上看准确性。

 

亚马逊AWS Rekognition

640?wx_fmt=png

谷歌Vision:

640?wx_fmt=png

IBM Watson:

640?wx_fmt=png

微软Azure Computer Vision:

640?wx_fmt=png

在所有的引擎中,我们都可以看到,它们在分配给更高置信度分数的标签上做得更好。

 

二、图像识别引擎与人类的想法相匹配的程度如何?

 

匹配人类描述评估的不同之处在于,研究人员向用户呈现了每个引擎为每个图像提供的前五个最高置信度标签,而没有告诉他们来自哪个图像识别引擎。

 

然后,在2000张图像中,研究人员要求用户选择并排列他们认为最能描述图像的前五个标签。与之前的数据集不同,这里的重点是最佳匹配人类的想法。这次评估的目的是看看哪个引擎最接近这一点。

 

对于数据,让我们从平台的平均得分开始,总计:

640?wx_fmt=png

如图所见,“手动标记”图像的得分远高于任何引擎。这是可以预料到的,因为手动标记的标签的图像描述是准确的。

 

四个图像识别引擎和人类水平之间的差距非常大。值得注意的是,四个引擎中Google Vision明显性能更高,但手动标记结果的选择频率仍远高于任何引擎给出的结果。

 

总之,人类仍然可以比机器API更好地识别图像,并对其他人解释自己的看法。这是因为几个因素的作用,其中包括语言的特异性、具备广阔背景知识基础的引擎常常会关注对人类没有重大意义的属性,因此虽然这些属性是准确的,但人类更有可能描述他们的感受,更准确地识别图像。

 

下图为按图像类型分类的分数视图:

640?wx_fmt=png

按图像类别划分很有意思。人类手动标记的标签仍是每个类别中目标最多的标签。Google Vision在四个类别中的三类中获胜,亚马逊AWS几乎没有在任何类别中占据优势。

 

当引擎标签的置信度为90%以上时,四个引擎中的三个得分高于人工标注标签。

三、图像识别引擎的词汇表

本研究最有趣的发现之一就是不同平台上词汇引擎的变化情况。以下是参与比较的四个平台的原始数据,以及我们的“手动标记”结果。

640?wx_fmt=png

当然,根据图像类型不同,词汇发生变化是自然而然的事情(详细数据以下给出)。

下图为AWS Rekognition的结果:

 

640?wx_fmt=png

Google Vision:

640?wx_fmt=png

 

IBM Watson:

640?wx_fmt=png

微软 Azure Computer Vision:

640?wx_fmt=png

如上所见,你可能已经注意到了,我们将数据分成了一个个单词,但不少数据标签长度都不止一个单词,而且标签的平均长度会随着不同引擎发生一定程度的变化,下图所示为每个标签下的平均单词数量。

640?wx_fmt=png

最后,是对于每个图像识别引擎每次反应的平均字数。

 

640?wx_fmt=png

 

每种引擎下的等级水平

 

640?wx_fmt=png

总体看来,所有的引擎距离人类描述图像的方式还有很大的距离。

其他特征:IBM Watson是“艺术家”,AWS是“时尚达人”

IBM Watson最爱五颜六色:其API具有最独特的颜色变化组合和最多的颜色种类。

  

Google Vision和微软Azure Computer Vision也经常提到“黄色”,但都比不上IBM Watson的“艺术家”气息。

 

Microsoft Azure Computer Vision可以描述图像质量:引擎会返回“模糊”以及“像素级”的结果。

 

进行时词汇:IBM Watson有112个回复以进行时“ing”结束,Amazon AWS Rekognition这样的回复结尾有62个,Microsoft Azure Computer Vision有87个,Google Vision有103个。

 

IBM Watson喜欢高度描述性的词语, 并为这些词汇添加语境:pinetum(松树),牛轭(河),LED显示屏(计算机/电视),rediffusion(分布),'蔓藤花纹(装饰),'dado(骰子),'登山杖(攀登装备)。

 

实际上,IBM Watson在很多方面都过于极端地描述了图像。这可能导致IBM Watson面临的一些准确性上的问题。从积极方面来说,这种对高度描述性词语的关注应该使用户更容易找到与其查询请求相关的图像。

 

AWS Rekognition是一个“时尚达人”:亚马逊AWS Rekognition喜欢服装。它比其他API更能识别出短裤、裤子和衬衫。

 

Google喜欢猫,IBM Watson喜欢狗:谷歌更善于识别出猫的品种,IBM Watson更善于识别出狗的品种,并对它们有更具体的了解,甚至可以具体到“德国短毛指针犬”。Microsoft Azure在猫的识别上仅次于Google Vision,位居第二。

总结

很明显,Google Vision是这场比拼中的赢家,在原始精度和与人类描述图像的一致性上处于领先。

 

IBM Watson在测试中排名最后,但应该注意到IBM Watson在自然语言处理方面表现优异,而NLP这不是本研究的重点。它是迄今为止唯一一家为自定义NLP模型创建构建完整GUI的主要AI供应商,Watson平台不仅允许分类,还允许通过该GUI提取自定义实体。

 

同样令人兴奋的是,当置信度大于90%时,四个引擎中的三个引擎的原始精度得分要高于人类手动标记。 这是图像识别引擎性能和发展潜力的强有力的证明。不过,从图像识别引擎以类似人类的方式描述图像,并以此进行图像标记的表现来看,未来还有很长的路要走。

原文链接:

https://www.perficientdigital.com/insights/our-research/image-recognition-accuracy-study

640?wx_fmt=gif

640?wx_fmt=jpeg

CDA 课程咨询丨史老师

联系电话:18080942131

640?wx_fmt=jpeg

扫描二维码

这篇关于图像识别领域四大天王谁最强?谷歌实力碾压微软IBM亚马逊的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/392505

相关文章

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

PostgreSQL核心功能特性与使用领域及场景分析

PostgreSQL有什么优点? 开源和免费 PostgreSQL是一个开源的数据库管理系统,可以免费使用和修改。这降低了企业的成本,并为开发者提供了一个活跃的社区和丰富的资源。 高度兼容 PostgreSQL支持多种操作系统(如Linux、Windows、macOS等)和编程语言(如C、C++、Java、Python、Ruby等),并提供了多种接口(如JDBC、ODBC、ADO.NET等

如何掌握面向对象编程的四大特性、Lambda 表达式及 I/O 流:全面指南

这里写目录标题 OOP语言的四大特性lambda输入/输出流(I/O流) OOP语言的四大特性 面向对象编程(OOP)是一种编程范式,它通过使用“对象”来组织代码。OOP 的四大特性是封装、继承、多态和抽象。这些特性帮助程序员更好地管理复杂的代码,使程序更易于理解和维护。 类-》实体的抽象类型 实体(属性,行为) -》 ADT(abstract data type) 属性-》成

微软正式推出 Spartan 斯巴达浏览器

作为用于替代 IE 浏览器的下一代继任者,微软的 Project Spartan 斯巴达浏览器可算是吊足了玩家们的胃口!如今,在最新的 Windows 10 Build 10049 版本起,它终于正式登场了。 斯巴达浏览器搭载了全新的渲染引擎、新的用户界面并集成了 Cortana 语音助手。功能上新增了稍后阅读列表、阅读视图、F12开发者工具、支持网页注释 (手写涂鸦),可以保存到 O

全英文地图/天地图和谷歌瓦片地图杂交/设备分布和轨迹回放/无需翻墙离线使用

一、前言说明 随着风云局势的剧烈变化,对我们搞软件开发的人员来说,影响也是越发明显,比如之前对美对欧的软件居多,现在慢慢的变成了对大鹅和中东以及非洲的居多,这两年明显问有没有俄语或者阿拉伯语的输入法的增多,这要是放在2019年以前,一年也遇不到一个人问这种需求场景的。 地图应用这块也是,之前的应用主要在国内,现在慢慢的多了一些外国的应用场景,这就遇到一个大问题,我们平时主要开发用的都是国内的地

CCF推荐C类会议和期刊总结(计算机网络领域)

CCF推荐C类会议和期刊总结(计算机网络领域) 在计算机网络领域,中国计算机学会(CCF)推荐的C类会议和期刊为研究者提供了广泛的学术交流平台。以下是对所有C类会议和期刊的总结,包括全称、出版社、dblp文献网址以及所属领域。 目录 CCF推荐C类会议和期刊总结(计算机网络领域) C类期刊 1. Ad Hoc Networks 2. CC 3. TNSM 4. IET Com

在亚马逊云科技上利用Graviton4代芯片构建高性能Java应用(上篇)

简介 在AI迅猛发展的时代,芯片算力对于模型性能起到了至关重要的作用。一款能够同时兼具高性能和低成本的芯片,能够帮助开发者快速构建性能稳定的生成式AI应用,同时降低开发成本。今天小李哥将介绍亚马逊推出的4代高性能计算处理器Gravition,带大家了解如何利用Graviton芯片为Java生成式AI应用提高性能、优化成本。 本篇文章将介绍如何在云平台上创建Graviton芯片服务器,并在Gra

BERN2(生物医学领域)命名实体识别与命名规范化工具

BERN2: an advanced neural biomedical named entity recognition and normalization tool 《Bioinformatics》2022 1 摘要 NER和NEN:在生物医学自然语言处理中,NER和NEN是关键任务,它们使得从生物医学文献中自动提取实体(如疾病和药物)成为可能。 BERN2:BERN2是一个工具,

Vue3+elementplus实现图片上传下载(最强实践)

图片上传子组件: 实现照片的上传,预览,以及转成以逗号隔开的图片地址,即时监听,并发送消息到父组件。 <!-- ImageUploader.vue --> <template><div><el-upload class="avatar-uploader" :http-request="customUpload" :before-upload="beforeUpload":show-fil