Siri会说话的秘密:终极目标是“杀死人类”

2024-04-24 01:48

本文主要是介绍Siri会说话的秘密:终极目标是“杀死人类”,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

本文来源:外滩画报作者: 华琪

核心提示:iPhone 4S内置Sari系统公司CEO透露Sari的目标路线,第一阶段:阶段性人类;第二阶段:完全是人类;第三阶段:超越人类;第四阶段:杀死人类。就像机器HAL9000在《2001 太空漫游》里干的事情一样。

10月4日,苹果iPhone 4S手机发布。不久,其内置的个人语音助理Siri引爆大众关注。10月25日,就在Siri获得巨大关注时,Siri公司原联合创始人兼CEO戴格·吉特拉斯宣布从苹果离职。吉特拉斯在Twitter中透露了他们为Siri设定的目标路线图。

第一阶段:阶段性人类;第二阶段:完全是人类;第三阶段:超越人类;第四阶段:杀死人类。就像机器HAL9000在《2001 太空漫游》里干的事情一样。

10月4日,苹果iPhone 4S手机发布。在发布会上,个人语音助理Siri并未引起轰动。但在进入实际生活场景后,Siri引爆了大众关注。

人们以调戏Siri为乐,在网站“Shit that Siri Says”(看看Siri说了啥)上,用户已经上传了近千条和Siri的对话实录,在Facebook上受到热捧。人们热衷于问它一些困难的问题,而它总是回答得出人意料。

有人问:“如果一只土拨鼠能够抛木头,它能抛多少木头?”(编注:一个英语绕口令)

Siri的回答也是一个绕口令:“如果一只土拨鼠能够抛木头,它能抛多少木头就抛多少木头。”

还有人问:“你是一个智能手机吗?”

Siri的回答很经典:“等等……还有别的手机吗?”

Siri在苹果的官方宣传中是个“智能个人语音助理”,具体的使用场景是这样的:你对着iPhone说一句话,“旧金山剧院附近的意大利餐馆”,Siri会做语音识别和自然语言理解,迅速查一些数据库,然后回答“离你不远哦,最近的一家走路十分钟”,并附上具体的地址、地图展示给你。再比如,你在开车时,对它说:“告诉我老婆我要迟到十分钟”,它会在通讯录里找到你的妻子,并发送这条消息给她。

这已经接近人们想象中和电脑交流的方式。《纽约时报》撰文称:Siri代表着苹果的商业未来,也预示着未来“搜索”的形态。

这一切是如何做到的?人们有种种猜测。有个流传甚广的笑话:“Apple在印度的海德拉巴建了一个巨大的用户响应中心,所有用户和Siri的问题都被传到这里,然后三哥三姐们飞快的打字回答。Apple内部把这个叫印度云(Indian cloud),简称iCloud。”

真实的故事是,Siri脱胎于一个庞大的国防部项目,是一家总部位于旧金山的同名小公司,它诞生于2007年12月经济危机的寒冬中。2010年4月,苹果公司以2亿美元收购了这家公司,并将整个团队招致麾下。

10月25日,就在Siri获得巨大关注时,有媒体爆出,Siri公司原联合创始人兼CEO戴格·吉特拉斯(Dag Kittlaus)将从苹果离职。他自己称希望能搬到芝加哥,离家人更近,并能有时间开创新事业。

事实上,关于Siri,最伟大的事情并非人工智能本身,而是苹果通过Siri把人工智能带进了现实生活。其实Siri并没有什么革命性的技术,本质上是把各种已经比较成熟的技术融合成一个产品,最终呈现给用户。

Siri背后的人

Siri发源于史上最大的人工智能项目:五角大楼的CALO项目。CALO是“Cognitive Assistant that Learns and Organizes”的缩写,该项目主要目标是:开发一个智能的个人助手系统。这个项目汇集了全球25所顶级大学和商业研究机构的300多名研究人员。在2007年该项目结束时,协作方之一的斯坦福国际研究院(SRI International)成立了Siri。

整个CALO计划的带头人名叫亚当·奇也(Adam Cheyer),他也是Siri的联合创始人之一,现任苹果iPhone团队工程总监。Siri公司的原首席技术总监汤姆·格鲁伯(Tom Gruber)也是出身斯坦福大学的人工智能、语义网专家。CALO项目的关键员工、后来成为Siri公司董事的诺曼·温那斯基(Norman Winarsky)在接受媒体采访时说:“那时,我们意识到其中有难以置信的商业机会,我的任务是为这个新项目获得资金。于是,我找来当时摩托罗拉的高管戴格·吉特拉斯,语义网天才格鲁伯和CALO主架构师亚当·奇也创立了这家公司。”

在《麻省理工技术评论》的采访中,奇也表示:“CALO早已开始探索如何把对话、自然语言理解、视觉、演说、机器学习、制定计划、理性思考等全部融合到一个模仿人类的助理中,帮助人们完成不同的事情。”

亚当·奇也表示,过去四年,他和他的团队一直在钻研如何优化CALO,使其能够在一台强大的移动电话中发挥效用,每天都能被成千上万的用户使用。过去一年半,他们把主要精力放在Siri技术和iOS及其应用程序的整合上。

2008年10月,Siri获得第一轮约850万美元融资。谷歌趋势(Google Trends)关键词搜索历史显示,那是Siri第一次受到公众关注,当时Siri的高层对于他们究竟想要做什么闪烁其辞。他们的宣传语这样写着:全新的互动模式,拥有连接互联网消费者的智能界面。CEO戴格·吉特拉斯那时对媒体说:“现阶段我们必须小心,我们不想说很多,以免让竞争对手了解太多,激发灵感。”这些竞争对手很可能是那些互联网界的巨头,雅虎、谷歌或微软,在人工智能领域,他们都有各自的发展计划。

那时,吉特拉斯就表示,他们已经为Siri想好商业模式。“我们认为,采用CPA(编注:每次行动的费用)的定价模式,即根据每个访问者对特定网站所采取的行动进行收费很适合Siri。”

Siri最早的投资人格雷·摩根泰勒(Gary Morgenthaler)同意他的观点。他在最近接受媒体采访时说:“Siri能友好地将你带往你想去的地方,做成你想做的事情,CPA的模式对于服务提供商来说再好不过。无论是苹果,还是那些电子商务网站。如果你是在做一个电子商务网站,你是想满天撒网地投放广告,还是直接去找刚好想要买那些东西的人呢?”

2009年5月30日,在D7大会上,吉特拉斯发布了Siri,Siri整合一部分网络服务进入App Store,运行在iPhone 3GS上。但因为硬件和网络速度的局限,那时的Siri还不会说话,只能通过文字进行回应。

同年11月,Siri完成第二轮融资,共计1550万美元,原先两家投资机构追加部分投资,李嘉诚基金会也加入进来。

2010年2月,带语音版本的Siri发布,免费提供3Gs手机下载。这个版本已经能帮你找到和预订餐厅、电影院,提醒你各项日程,帮你预订从A处到B处的出租车;但这个版本的Siri还不能回答“离办公室最近的健身中心在哪里”。

谷歌趋势显示,2010年4月,Siri迎来第二个关注高峰。那个月,苹果正式收购Siri。在吉特拉斯2010年3月份的twitter记录里,他不停地往返于芝加哥和硅谷之间,和不同的人会面。3月9日,他在twitter上写,Siri将要有些大动作了。

关于这次收购的细节,几个联合创始人根据协议都未向外界透露,2亿美元的价格也是估价。温那斯基只对媒体说:“仅仅在我们发布了应用之后的2个月,苹果就完成了对Siri的收购,其他的你自己想去吧。”

苹果的人工智能之梦

今天的Siri,让人想起曾经的Eliza。Eliza是1966年面世的一个著名程序,由麻省理工大学研究员约瑟夫·维赞包姆(Joseph Weizenbaum)设计,它提供了一些模拟反应,回答用户提出的问题,类似和精神治疗医生进行交谈。人们可以和Eliza聊天,仿佛和真人聊天一样,当时的Eliza成为了“全美的玩具”。

有人问Siri,谁是Eliza。Siri显然还记得她,它说:“她是我的朋友,是个优秀的精神治疗师,但她已经退休了。”

在Siri中,设计者们为它植入了大量的彩蛋。譬如,当用英文要求 Siri,“Open the pod bay doors(打开分离舱门)。”那是库布里克作品《2001太空漫游》里的场景。Siri会有不同的回答:“暗号……”,“Joshua,对不起!恐怕我不能那样做。”,“够了!我要向智能代理联盟报告你在骚扰我。”,“你们将永远记得我们这些智慧代理人”。最后这句话,在电影里是机器 HAL9000 的台词。

类似于HAL9000的智能电脑一直是苹果对于人工智能的完美设想。在1980年末苹果公司发布的系列展望未来的视频中,有一个这样的机器人叫Jill,他是一位教授的助手,他生活在一本打开的平板电脑中,随时准备为教授提供各种帮助:搜索论文的时间;提醒他回母亲的电脑;帮他接通电话……

在1999年的苹果千禧年广告中,HAL9000直接出镜了,他对《2001太空漫游》的另一主角)循循善诱:其他公司忙于投入巨额资金修复千年虫漏洞,甚至有人认为全球信息系统即将崩溃,只有苹果电脑对该漏洞是免疫的!

吉特拉斯在Twitter中透露了Siri早期发展设定的目标路线图。第一阶段:阶段性人类;第二阶段:完全是人类;第三阶段:超越人类;第四阶段:杀死人类。就像HAL9000在《2001太空漫游》里干的事情一样。

在2010年收购Siri后,苹果扩充了Siri的能力,包括使用Nuance的语音识别技术。温那斯基认为,用什么语音识别技术并不是最重要的,一旦有更好的语音识别技术出现,Siri很容易换一个新的。Nuance也是斯坦福研究院孵化的一个公司,在2000年上市。

2011年10月,随着iPhone4S上市,谷歌趋势里“Siri”的关注指数直线上升。诺曼斯基觉得,Siri的意义就像鼠标之父道格·恩格尔巴特(Doug Engelbart)在60年代发明鼠标那样令人振奋,苹果将用Siri开启另一场技术革命。

Siri的高明之处和潜力

也有不少公司对苹果推广Siri的人工智能颇有微词。

安迪·鲁宾,Google公司Android系统开发者安迪·鲁宾对媒体表示:“我不认为手机该成为你的个人助理,手机是与人沟通的工具,你不该和手机说话,你应该和手机旁边的那个人说话。”事实是,Android系统里有上千个和语音服务有关的应用软件出售,更别说Google的智能语音搜索。

微软的Windows手机总裁安迪·李也对Siri不以为然:“那并不是非常好用。”他指出,手机着重于语音应用其实很正常,微软在这方面也有发展,但并非像苹果在iPhone 4S的Siri那样过于“华丽”的呈现。

在人工智能领域,几大IT巨头从未停止脚步。Android系统的语音指示(Voice Actions)就是一项伟大的技术,并已经被许多Android用户所熟知和使用。遗憾的是,和所有语音命令系统一样,它要求用户说的话严格符合一系列特定的语法,否则它就无法理解。

和他们相比,Siri最优秀的地方在于它的界面,你说的话可以和你想表达的意思在字面上毫不相干,从严格的技术上看似乎文不对题,但Siri会根据上下文、人类历史以及能够理解一般人类语言的人工智能去分析,并在多数情况下领会你的意思。你可以随机提问,“到木星有多远?”,“122的5次方是多少”,或者“天空为何是蓝色的?”

如果你想小睡一会,并准备上个闹钟,只需要说“20分钟后叫醒我”。如果你想查阅后面的日程安排,你可以说:“我今天接下来都有什么事?”这些语句中既不包括会用到的应用程序名称,也不包括所需数据的名称。Siri仍然能够理解。

Siri还有很独特的幽默性格,人们几乎可以把它当作一个有趣的年轻女子。

在技术上,Siri是人工智能专家的所有技术在友好界面上的整合,但它的潜力不止于此。如果苹果借此机会创建一个人工智能程序的生态系统,将Siri做成平台,让Siri与其他程序结合,内置的个人助理服务将更具使用价值。“技术上来说,Siri可与任何网络服务整合到一起,你可以把Siri前端放在任何服务之前。” 温那斯基对媒体说。

比如,有一款专注于帮助用户点餐的程序Alfred,它能从互联网获取数据来提供餐厅、咖啡、酒吧的选择建议。如果这个程序和Siri结合,也许你就不用问“离旧金山最近的意大利餐馆在哪里”,而是可以直接对Siri说:“我要吃午饭”。

苹果iPhone的成功大部分要归功于其允许第三方开发者创造最新的程序,为iPhone带来了新科技和新理念。温那斯基表示,这种做法也能够给Siri带来巨大进步。尽管苹果还没有公开表示,是否会开放Siri的API(编注:应用程序编程接口)。

互联网思想家凯文·凯利在《失控》中预言:网络终极的形式可能是一种人工智能的形式。这种形式足够复杂,有足够多的层级,能够产生自我思考的能力。

这篇关于Siri会说话的秘密:终极目标是“杀死人类”的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/930463

相关文章

Python中的私有属性与方法:解锁面向对象编程的秘密

在Python的广阔世界里,面向对象编程(OOP)是一种强大而灵活的方法论,它帮助我们更好地组织代码、管理状态,并构建可复用的软件组件。而在这个框架内,私有属性与方法则是实现封装的关键机制之一。它们不仅有助于隐藏类内部的具体实现细节,还能保护数据免受外部干扰。今天,让我们一起探索Python中私有属性与方法的魅力所在,了解它们如何在实际开发中发挥重要作用。 引言 随着软件系统变得越来越复杂,维

聊聊说话的习惯

1 在日常生活中,每个人都有固定的说话习惯。心理学研究表明,通过一个人的说话习惯,也可以分析出他的性格特点。对于每一个人来讲,说话习惯已经融为他们生活中的一部分。在社交活动中,一些不良的说话习惯很可能会给他们带来麻烦。因此,了解说话习惯对心理活动的影响是十分有必要的。 2 具有顺畅的说话习惯的人,大多思路清晰、语速适中、用词准确并且声声人耳,是典型的顺畅型说话方式这种类型的人要么不说话,要么

彩色成像的基础和应用 原理 Principles(四)人类视觉 修订版

由于此书覆盖的领域之巨大, 翻译此书是非常具有挑战性的工作,如有过错请谅解和指正。 【注:彩色成像的基础(二)讨论光的传播 (三)光与物质的相互作用 暂时未翻译完成】                  前面几章讨论了光及其与物质的相互作用。当光线进入人眼时,会发生一种特别重要的相互作用。光落在视网膜上,会引发一连串最引人注目的事件。在本章和下一章中,我们将根据目前的知识水平,重点讨论这一系列事件。

AI模型:追求全能还是专精?-- 之5 “机器人”最终会成为“人类”的主导者吗?--答案是:不会!

Q1、先回顾一下:我们正在设计的是 一个变形机器人(变形金刚Transformers)。它是作为三种机器人(移动机器人Robot、代理机器人Agent和人形机器人Android )的共同原型(可以视为“祖先”--上述三者的祖传代码)来设计的。 Transformers原型( Anestor) 中 为支持产生规则的反向应用规定了 生成任何一种语言的产生规则的三个元级推理技术 等价超因子(=)、特化超

【数据应用案例】openFive dota5v5战胜人类

@案例来源:@AI科技大本营 @AI科技评论 @论智 @案例地址:https://mp.weixin.qq.com/s/exvP4FucUfeOONsUkyTz7w;https://mp.weixin.qq.com/s/-llCCnFkDypVNiEh4yjNMg;https://www.jqr.com/article/000306   0. 背景:美国时间8月5日,open AI的5v5d

端口占用 杀死进程

首先按照下面的方法打开powershell工具 点击“开始”菜单,然后再弹出功能中,点击“运行”,在打开的“运行”对话框中输入powershell并回车就可以打开powershell工具了  powershell工具打开后就如下图所示了,第一眼给人的感觉是这就是cmd命令行工具,呵呵,其实并不是的,只是它们长的有点像,而且都是为软件的产品

mysql 事务与connection,锁,慢sql,如何解决,杀死执行的线程

前提说明 navicat中每打开一个窗口就是打开一个connection,关掉窗口就是关掉connection 事务与connection  测试事务不提交的情况 (步骤1)先打开一个窗口,开启一个事务T1插入一条数据,这里不进行提交。 由于在一个事务中,所以select 能立刻查出insert的但还没提交的数据。 查询是否开启 事务超时,回滚策略。 SHOW GLO

AI语音机器人:通过 Azure Speech 实现类人类的交互

语音对话的重要性 在竞争日益激烈的客户互动领域,人工智能语音对话正成为重中之重。随着数字参与者的崛起,组织认识到语音机器人的强大力量,它是一种自然而直观的沟通方式,可以提供类似人类的体验,深度吸引用户,并让他们从竞争对手中脱颖而出。无缝客户服务、个性化协助和即时信息访问的需求推动了对高质量语音交互的需求不断增长。此外,随着公司努力保留和扩大收入,跨越语言障碍接触更多样化的客户群变得至关重要,这使

Oracle:杀死死锁进程

Oracle:杀死死锁进程 1. 模拟死锁现象 利用PL/SQL Developer工具可以很容易模拟死锁现象。用同一个数据库的同一个用户登录2个PL/SQL Developer。 首先,在其中一个PL/SQL Developer随便对数据库的表执行一个更新操作,不要提交,状态为“待提交” 然后,在另一个PL/SQL Developer执行同样的操作,此时这个操作会等待前面的事务提交之后

Nature Communications:解码人类触觉感知与运动神经控制机理,用仿生手重现类人触觉感知与抓握

近日,由曼彻斯特大学、牛津大学、吉林大学、索尔福德大学等多所机构组成的国际研究团队,在Nature Communications期刊上发表了一篇重要研究成果,题为Human tactile sensing and sensorimotor mechanism: from afferent tactile signals to efferent motor control。该研究首次结合人体神经传导