本文主要是介绍计算机如何未卜先知,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
原译文地址: http://article.yeeyan.org/view/123740/108260
作者:Lev Grossman 2010年5月27日,星期四
照片由C.J. Burton提供给《纽约时报》
做个试验:试着不把一首歌当做单纯的歌曲,而想象成各种不同音乐属性的集合这首歌可能有政治性的歌词。它只是歌的一个属性。歌曲中可能有警笛鸣响、令人印象深刻的班卓琴伴奏、伴音的人声合唱或朋克风格(punk roots)的摇滚乐。所有这一切都只是属性。一首歌可能有400种属性— 以上这些仅仅只是p(译者注:应该是属性的简写)下归档属性中的一小部分。
这个古怪的想法源于提姆·威斯特伦,他是一个网络无线电服务网站的创始人之一,该网站名为“潘多拉(一个音乐网站)”,位于美国加州的奥克兰。只要出现一首新歌,潘多拉团队的某个人(受过专门训练的音乐家或音乐学者)就会浏览一个囊括所有可能音乐属性的列表,为歌曲的每个属性分配一个数值评定。分析一首歌曲大约要花费20分钟。
“潘多拉”(和外星球可没什么关系)的成员每个月要分析10,000首歌曲。迄今为止,他们已经做了十年,日积月累使得他们拥有了一个庞大的数据库,里面包含了740,000首不同歌曲的详细属性资料。韦斯特伦将此数据库称之为“音乐基因工程”。
除了为往昔哪首歌具有最棒的班卓琴曲调的纷争盖棺论定,积累这些数据还有一个目的。“音乐基因工程”的目的是预测以后你会喜欢的什么样的歌曲。潘多拉利用“音乐基因工程”为商业中广为人知的推荐引擎服务:此类软件的特点之一就是,根据你刚刚听过、看过或读过的东西为你接下来可能想听、愿观或喜读的东西提供建议。告诉“潘多拉”你喜欢勺子乐队(Spoon),它就将为你倾情播放“谦虚老鼠乐队”(Modest Mouse)的歌曲。告诉“潘多拉”你喜欢凯金音乐(乡村音乐旁支)风格的手风琴大师Alphonse "Bois Sec" Ardoin,它会让你试试Iry LeJeune演奏的一些曲调。向“潘多拉”倾诉喜好的人数不胜数,“潘多拉”的预测服务每个月会为其新增25,000,000万名用户。
在过去的十年中,悄然之间推荐引擎已经无处不在。只要有是适当的时机(通常你将要完成一次零售购买的时候),它们似乎就会伏在你的肩头,在你耳边窃窃私语,向你提供建议。亚马逊是自动推荐的先驱,但是Netflix、苹果、YouTube和TiVo这些后起之秀如今在此领域同样也有自己的一席之地。仅是音乐这一块,“潘多拉”就有几十个竞争者。优秀的推荐引擎可谓价值连城。根据行业分析公司Forrester的报告,在电子商务网站上留意到推荐信息的顾客中,有三分之一最终会依据这些推荐购买商品。
不过说实话,构建推荐引擎真的是非常困难的一件事情。单从表面看,它们简单异常—就像如果你喜欢X,你也将爱上Y!—但实际上内在的工作非常之复杂.它们处理的庞大数据量会让你瞠目结舌,同时还要用极其高深的高等数学完成这一切。所有一切只是因为它们将试图预测那神秘难测、有悖常理的人类行为方式:依据一个人对某件艺术作品的反应,它们将尝试反向工程(指通过技术手段对从公开渠道取得的产品进行拆卸、测绘、分析等而获得的有关技术信息)人的精神世界。
在大肆预测的同时,这些推荐引擎也在潜移默化地改变着我们接受文化作品的方式。过去,我们会从朋友、评论家和影像商店的店员(总之是人)那里了解新的艺术作品。而现在,我们通过软件了解这类信息。我的身边出现了新类型的潮流缔造者,不过它们并不是人。
学会去爱多夫·伦德格伦
“潘多拉”推荐的方式与人们之间的推荐方式几近相同:推荐前先要做足功课,了解它将要推荐的音乐,了解您的音乐口味。但是背后的过程实际上非比寻常。这是一项极其纷繁复杂的方式。取而代之,大多数推荐引擎采用了倒推的工作方式,它们推荐所凭借的信息并非来自艺术作品,而是源自艺术作品的受众。
这就是所谓的“协同筛选”技术,该项技术所依据的原则是:可以依据大多数人的行为对个体行为作出有根据的推测。打个比方:如果统计数字表明,大多数喜欢《欲望都市》第一季的人也会喜欢《妈妈咪呀!》,那么在我们知道某个人喜欢《欲望都市》的时候,我们就可以以此推测,他/她一定也喜欢看《妈妈咪呀!》。
这种技术听上去简单异常,但是对之了解越深,您就越会发现它是多么的怪诞离奇、复杂深奥。拿Netflix(世界上最大的在线影片租赁提供商)的Cinematch推荐引擎为例。通常来说,一个推荐引擎的算法核心必将是一项严防死守的商业机密,但在2006年,Netflix断定自身的Cinematch推荐系统并非尽善尽美后,却采用一种不同寻常的方式来解决该问题。该公司将其电影排名数据库(选择了大约100万部影片)的部分信息公布于众,只要有人能够让Cinematch推荐引擎的效果提高10%,就可获得高达百万美元的奖金。
这次由Netflix发起的竞赛为墨守成规地禁锢在公司研发部门内部的世界,打开了一扇天窗。最终的获胜者(去年秋天获得了这笔大奖)出自四个国家联合作战的BPC(BellKor's Pragmatic Chaos)七君子,其中包括Bob Bell和Chris Volinsky这两个AT&T(美国电话电报公司)搜索部门的成员。与这些人谈谈,您就会明白制作一款可以理解变幻莫测的人类口味的软件是多么的困难。从中您也可以了解这背后的奇妙之处:软件是如何知道我们对于电影的口味的,而一个音像店的店员都做不到这一点。
对于“协同筛选”软件,把握的关键点在于它对电影一无所知。它没有先入之见;它的工作完全依据于观众的反映。所以,如果足够多的人都声称喜欢《电锯惊魂5》(Saw V)和《金色池塘》(On Golden Pond)这两部电影,该软件将据此推断这两部电影有着令观众着迷的共同品质。是疯狂?或者说该软件就是疯狂的天才?
在这种情况下,该软件将找到我们甚至可能从未意识到或为其命名的美观性,但从数学意义上将,必须承认它确实是存在的。甚至连 Bell 和 Volinsky 都不知道这些属性到底为何物。“我们可能可以描述它们,或者我们根本就办不到,”Bell 说。‘它们可能是难以捉摸的,就像在动作电影中,没有太多血腥的画面,没有什么污言秽语,而唯有一个强大的女主角。’这样的事情,您可能从未想过按自己的意愿分类”。正像 Volinsky 提到的,“大多数时候,我们根本就没有想过解释那些可以解释的东西”。
所有这一切使得推荐引擎听上去几乎就是个灵物,但是日常经验告诉我们,它们实际上非常容易出错。如果一个推荐引擎对观看由杜夫·朗格出演的《洛奇IV》的秘密愿望大放厥词,相信每个人都会感到雷霆震怒。2006年,沃尔玛的推荐引擎竟将《人猿星球》与马丁·路德·金的记录片配成了一对,为此沃尔玛遭到了种族歧视的指控。但是通常来说,推荐引擎的薄弱环节并非软件自身;而在于我们。“协同筛选”的工作仅仅针对所有可用的数据,而人类却是制造那些杂乱无章、低质量数据的始作俑者。
这个问题一贯如此:我们恰恰不擅长以评分表的形式表达我们的愿望。与度假的时候相比,在糟糕的工作日后对我们对事物评价就会有所差别。一些人本就吝啬评出他们的星星;而另一些人却慷慨洒出手中的星星(译者注:估计是为电影评几星级)。我们所做影评的差异取决于看完影片后我们对它们的评价是否正确,取决于我们是否苦等一个星期才终尝所愿,如果再加上一周之间我们看过一部糟糕透顶的电影和一部大呼过瘾的电影,又会对我们的判断添了点猛料。甚至是我们一次评价一整批电影和每次评价其中一部电影,都会促成我们评价上的差异。
所有这一切意味着“协同筛选”永远不会做到尽善尽美。“期间涉及到了太多不确定的因素,”Volinsky承认。“尝试预测人类行为时不可避免地会出现一些错误”。
大量选择盛行的时代
推荐引擎是对网上零售的陌生新世界的一种响应。这是一个物质大爆炸、些许半点东西都让我们眼花缭乱、用之不够的世界,我们面临的唯有:选择。
不幸的是,我们正沉浸在选择的汪洋之中,苦苦不能自拔。正如 Sheena Iyengar 在她著作《艺术的选择》(The Art of Choosing) 中指出的,1994年美国共有500,000种不同的消费品在出售,而现在单单亚马逊自己就有 2400 万种。面对如此滔滔不绝的选择机会,我们的理性直接陷入崩盘。“在我们的想象中,泛滥的选择机会一定会让我们更容易为朋友生日觅得完美的礼品”,Iyengar 写到,“但是在我们真正面对鳞次栉比的可选礼物时,只发现自己已经呆若木鸡,无所适从”。我们正生活在一个流行选择的时代。我们需要辅以信息之手为我们指明方向。而推荐引擎就是这样的手:它化繁为简,将数百万种选择精简至易于应付的一小撮。
不过这其中也涉及到权衡取舍。推荐引擎在文化对话中引入了一种新的声音,一个在我们最茫然不知所措的时候为我们指明方向的声音,一个在购买之时向我们建议的声音。这个声音究竟诉说了什么呢?推荐引擎并非设计成给我们之所想。它们只是向我们展示它们认为我们在想些什么,其根据就是我们和像我们一样的其他人以往喜欢和想要东西。
这就意味着它们不会给我们惊奇。它们也不会让我们陷入难熬的境地。推荐引擎不会像情侣一样,生拉硬套的扯着你去看一部打死也不想看的艺术片,然后再意外地上演一幕爱恋。它不会强迫你去读18世纪的经典作品。它也阻挡不了您因为某个漂亮 CD 有着非常酷的封面而对之踌躇满志。推荐引擎绝对与那些奇遇发现、伟大著作和前卫派们势不两立。19世纪的推荐引擎从不会说,如果您喜欢莫内(法国印象派画家),您一定也会爱上梵高!印象派总会流传千古。
依靠的推荐引擎的风险在于它们会让你墨守成规、一成不变。它们如此的目的在于老套总是舒适的去处 — 尽管通常它们并不停留在浮浅的表面而是深入探究得出判断。“从定义上来看,我们持续提供的歌曲与您开始时喜欢的音乐并无二致”,“音乐基因工程”的韦斯特伦说,“所以您可以说这是一种桎梏。但是即使如此,其中也蕴含着大量的华美篇章等待着您去发现。在“潘多拉”的用户中,45%的人在开始使用后,后续又购买了更多的音乐作品,其中只有1%的用户的购买度在下降。”“潘多拉”背后所依靠的并非只是听众的数据,这使得在面对压力时,它比大多数推荐引擎显得更加坚挺。它绝不会“趋炎附势”随波逐流。
“潘多拉”与众不同。以推动购物行为为宗旨的推荐引擎,其要旨在于紧紧抓住经济计量学家中的热门话题,在不采用反喻方法的情况下,常规手段是:向我们介绍新东西,尽管这些东西不赖,但是它们往往更像是一些旧东西,而且显得我们在拾别人之牙慧,用这些流于表面的肤浅之物来应付用户。这样一来,使得它们创建了一种傻瓜文化,其中少有的那几次巨大成功被无数次的重复推荐。这完全与“长尾理论”译注1背道而驰,“长尾”的内涵在于网络购物就是尽其所能为用户提供几近无限的选择机会和多元文化。它习惯于吃掉自己的尾巴并且让您重回起点这样的恶习。
但是,网络销售绝不只是在零售。网络已经改变了我们购物的方式。现在它也正在潜移默化之间改变着我们的社会生活,与此同时,推荐引擎也正借此东风风生水起。正如Netflix(世界上最大的在线影片租赁提供商)反向工程我们对艺术的响应,像Match.com、eHarmony和OKCupid这样的线上交友网站使用算法预测男女之间相互避讳的人类现象、好恶和欲望。两者的概念完全相同:它们将人的行为分解成数据,然后通过可以利用的数据来寻找符合这些人口味的伴侣类型。
纵然您不在交友网站上徘徊,您也可能免不了会在Facebook上(全球访问量排名第二的网站)转悠转悠。Facebook允许用户在连续的feed(信息)间切换,其中feed按时间顺序显示了用户所有朋友的新闻,更新Facebook 的推荐引擎的算法会选择显示它所认为用户最想看到的信息。在右边列,Facebook使用了另一套算法来推荐新朋友。如果您喜欢詹森,为什么不试试和乔丹交往交往呢?!至于网络上流量最大的网站谷歌,如果稍微换个角度看看,它实际上就是一个巨大的推荐引擎,它向我们建议应该读么、应该观看什么、最终要知道些什么。谷歌过去常常只是向用户返回同一属类的结果,但在12月,它全面推出了“个性化搜索”服务。“个性化搜索”会研究之前三个月您的搜索行为,并根据它对您将要搜索的对象及对应搜索方式的最佳猜测,相应地使搜索结果有所侧重。
这种原则几乎会漫无休止的普及下去。无论在哪里,在铺天盖地的自由选择让我们心生畏惧停滞不前之时,我们就会通过软件选择过程得出的外包元素从而使问题迎刃而解。平常我们往往在不经意间会流露出自身以及个人偏好的信息,而越来越多各种外形和大小的推荐引擎正在吸取此类数据并将数据反馈给我们,就这样在一个无限地反馈循环之中,将我们的现实重塑为它们深深希望更受我们喜欢的形式。最终为我们每个人创建一个用户化的世界,一个永远不会对孩子造成一丝伤害的世界,完全彰显个人色彩的世界,以及像循环空气一样,永远让人感觉一丝窒息的世界。
推荐引擎究竟会将我们的网络世界带至何处?我们最终浏览的是否只是显示有符合我们政治倾向博客的网页?在社交网络中,我们是否只会关注那些种族与宗教信仰与我们俱同的人?我们的见识、文化和社会将蜷缩到只知自我惬意、自我满足、还稍微有点幽闭恐怖症的完全个人化色彩之中。
让我们祈祷千万不要如此。始终亦步亦趋谨慎行事实在有违人的天性?偶尔之间,我么也应该经历无聊厌倦、失望沮丧和不悦愤怒这些人类的情感。这对我们有益。所有这些会让我们不断地蜕变。即使它意味着要观看由杜夫•朗格出演的《洛奇IV》(与上文对应)。谁知道呢?您或许看着看着就会喜欢上它的。
译注1长尾理论:(The Long Tail)是网络时代兴起的一种新理论,由美国人克里斯·安德森提出。长尾理论认为,由于成本和效率的因素,当商品储存流通展示的场地和渠道足够宽广,商品生产成本急剧下降以至于个人都可以进行生产,并且商品的销售成本急剧降低时,几乎任何以前看似需求极低的产品,只要有卖,都会有人买。这些需求和销量不高的产品所占据的共同市场份额,可以和主流产品的市场份额相比,甚至更大。更多详细内容参加http://baike.baidu.com/view/327983.htm?fr=ala0_1。
这篇关于计算机如何未卜先知的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!