独家 | Michael I.Jordan:大数据时代下的安全实时决策堆栈与增强学习(视频+精华笔记)

本文主要是介绍独家 | Michael I.Jordan:大数据时代下的安全实时决策堆栈与增强学习(视频+精华笔记),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


金秋九月,2017国际大数据产业技术创新高峰论坛暨大数据系统软件国家工程实验室第一次会议盛大开幕,大数据系统软件国家工程实验室作为大数据系统软件技术研发与工程化的国家级创新平台,将通过大数据系统软件技术的跨界合作与国际交流,建立和完善大数据领域的技术创新平台,集聚整合创新资源,加强产学研用结合,突破一批关键共性技术并实现产业化,促进大数据产业的快速发展,为培育和发展战略性新兴产业提供驱动力。

 

在活动上,清华大学杰出访问教授、美国三院院士、机器学习先驱Michael I.Jordan做了题为“大数据时代下的安全实时决策堆栈与增强学习”的主题分享。


class="video_iframe" data-vidtype="2" allowfullscreen="" frameborder="0" data-ratio="1.7647058823529411" data-w="480" data-src="http://v.qq.com/iframe/player.html?vid=y0551szxiic&width=670&height=376.875&auto=0" style="display: block; width: 670px !important; height: 376.875px !important;" width="670" height="376.875" data-vh="376.875" data-vw="670" src="http://v.qq.com/iframe/player.html?vid=y0551szxiic&width=670&height=376.875&auto=0"/>


演讲精华内容经数据派THU整理如下:

 

Michael I.Jordan:人们常常提到人工智能,并认为机器学习是人工智能的一部分,我并不这么认为。我认为机器学习是统计学和计算机科学的一部分,对于我来说,大数据还有数据科学比你们现在经常听到的“人工智能”一词更重要。每一个计算机系统都需要利用数据,需要适应数据库,需要诊断自己的系统,并且给每一个决策计算置信度。这些任务是计算机之前从未做过的。数据库接收一个请求并给出解答,之后你需要根据这个解答计算置信度,因为它总是不确定的。

 


有一个说法是,工业界产出软件,而主宰工业界的不是中国而是其他国家,这个说法是不对的。目前世界上最主流的软件并不由工业界产出,而是学术界。因此,像清华大学这样的学术机构不仅仅是这个领域的参与者,更能够成为这个领域的领导者。最主要的原因在于开源软件的出现,开源软件起始于Linux,如今已遍布在计算机科学的各个领域。一些世界上比较好的软件已经作为开源包存在于GitHub上,供所有人免费获取并共同搭建。因此大部分公司,尤其是小型公司,他们信赖这些软件,他们知道使用这些软件永远不会被收取费用。他们如果需要一些新的特性,他们也可以参与软件的编写,这是一个很大的改变。主要由我们AMP实验室(2011-2016年)研究生研发的Spark平台在大数据领域的使用比工业界推出的其他软件有更广泛的使用。


我认为在中国也是一样,大公司会意识到即使竞争非常激烈,参与开发人人都可以使用的软件系统是更明智的选择,它将促进中国的发展,提升世界范围内的参与度。更值得注意的事实是,在学术界一个由二十到四十人组成的实验室便可以主导世界软件产业的开发。如今我们在AMP实验室所做的五年项目已结束,我们又成立了新的实验室。新实验室得到的支持主要来自工业界(包括一些中国的公司,如华为)。


尽管AMP实验室贡献了许多有意义的项目,但它并不是我们所期待的未来。我们眼中的未来每分每秒都在产生的实时数据,它需要被及时地处理,因此需要实时决策,比如自动驾驶、医疗预算、财经预算等。收集庞大的数据并用几个小时去处理它不是科学前沿,数据的价值往往与它所支持的决策共同体现,对实时数据进行决策是我们实验室正着眼的话题。那么什么是好的决策呢?快速决策一定比慢速决策好吗?也不一定。快速决策有可能出错,因此我们会考虑风险,我们会将风险与时间都考虑进来。这是学术界一个新的研究领域。  


从前,风险是在统计学、经济学中研究,而时间概念则在计算机科学、电气科学中考虑,将这两个传统的问题放在一起来考虑具有非凡的意义。权衡风险与时间并不简单,并且至今尚未被解决。我们拥有许多数据,有些是最新且相关的,有些却不是,这一点给决策造成了困难。什么叫做相关?将数据保存为可以预测的形式,不仅仅是时间上的预测,而且包含了数据相关性的预测,这是一个很复杂的概念。过去的十年,公司收集的数据往往是普适的,他们提供的服务对于所有人都是相同的。而今天,我们收集的数据来自每一个不同的人,对于每个个体,我们希望提供个性化的服务。这种决策是非常困难的,因为我们要用计算机建立成千上万的模型,需要将数据整合再分开,并且对每一个人都需要提供好的预测,这个问题需要学术界来解决。总而言之,我们考虑的事情包括对实时数据毫秒级的实时决策,以及系统安全性问题。


在实时决策中我们要解决如下三个问题:


首先,处理海量的数据并及时给予反馈难度很高,数据量越大,实时性就越难达到。我们需要大数据量来提高决策的准确性,但与此同时决策速度却会变慢。那我们该怎样解决这个问题呢?我们需要构造流水线,来快速地搭建模型、模型服务并更新模型。我们想到运用增强学习算法,这一算法在自动驾驶中已用到。尽管增强学习的思路与技术都具备,但目前它尚未带来我们预期的突破。Alpha Go运用的就是增强学习算法,有人认为它是一个重大突破,但我不这么认为。因为它并没有解决目前的实际问题,它只是一个游戏,你可以去模拟这个游戏平台,你很清楚地知道这盘游戏的布局。而现实生活并非如此,我们永远不知道那个角落有什么,永远不知道后面会发生什么。你无法模拟现实生活,根据这一状态来预测下一状态的事情。因此,我们确实希望构建增强学习系统,来看我们每一步是否有意义,但目前我们尚无手段来证明这件事。


接下来一个非常重要的问题是,承认“我不知道”的能力。目前的机器学习系统在这一点上表现得并不好,它总是说它知道。就像你们去医院寻求治疗,医生很确定地告诉你你的心脏有问题需要手术一样,你知道这其中肯定是有不确定性的,但他并不给你第二个答案,这是非常危险的。


最后,可解释性。人们希望得到的答案往往不是简单的是或否,而希望得到进一步的解释,但目前的系统尚未做到这一点。因此我们的目标就是解决这些问题并将开源平台提供给大家,当然我们不认为这件事是可以由我们独自完成的,它是每一个人都面临的挑战。


现在,我来介绍一下在过去的半年里我们所做的工作。


首先是SRDS,它随着时间不断演化。它基于AMPLab栈,并关注新的事情。我们有一个轻量级的微型核,用于调度、目标存储与优化,它是开源的。我们现在致力于研究一种在大数据流下不需要等待上一个节点处理完再做接下来事情的架构,相关资料可以在网上找到。


Clipper是模型服务的一项工程。模型服务是一项很重要的任务,我们常常需要花费好几天来训练一个与时机、环境、人都契合得很好的模型。以往我们很容易能得到单一的模型,将它复制多份即可,但现在我们要搭建的不再是单一模型,而是个性化的模型。每个人要得到不同的模型,那么你该如何组织、服务,该如何整合人群信息来得到针对每个人的好模型,这是一个很难的挑战。


我们现在来谈谈Ray,这是我主要参与的工程。它用到了增强学习系统,拿一个机器人为例,我们现在要建立一种规则,根据当前环境来判断接下来的举措。那我们现在给出一个规则,让机器人做一个动作并观察会发生什么,我们通过它的表现来调整规则,从而让它表现得越来越好,这是增强学习最基本的想法。增强学习系统不是超智能系统,而是在不断尝试多种可能性后选择对事情发展更有利的举措,它是将搜索与学习结合的系统。机器学习中没有任何一件事是真正关乎智力的,它只是用梯度下降搜索或尝试各种可能性。所以尽管人们常提到人工智能,我只能说我们在构建机器学习系统,它做着有限的模式识别以及增强学习之类的工作。不过尽管这些事情是有限的,机器学习正在不断地改变世界。


在监督学习中,我们拥有一堆由人工标注的训练数据,而在增强学习中,我们没有这些标签,取而代之的是我们告诉这个系统它们做的决策好与不好,然后看这个系统可不可以在没有标签的情况下自己学得很好。就比如,要控制一个小人跑动,我们需要控制它的每一寸肌肉。但我们不会建立一个监督学习系统告诉这个小人每一步该如何控制肌肉,我们只会告诉它从这儿运动到那儿是好的,否则是不好的。


我们该怎么做这件事呢?这儿有许多算法,我们通常用“尝试”规则,看这么尝试的效果是否好,Alpha Go的原理便是如此。现在我们站在一个计算机科学研究者的角度来处理这个问题,我们要面对的动作空间包含了成千上万的动作,我们用大量处理器同时运算。当其中某些做了不好的尝试后便立即停止,一直等其他的处理器将好的尝试搜索完,这种做法会使问题处理得非常慢。因此我们需要构建一个数据流驱动的系统,一旦某个处理器做出不好的尝试,它可以立刻去做其他的尝试。


关于数据的隐私性方面,这是一个还没有得到解决的大问题,而且相当重要。让我们仔细考虑一下,这其实是一个有关网络安全的问题。我们知道腾讯、百度、阿里都有很大规模的数据,而我(清华大学)作为可以信赖的第三方,你们愿意将数据交给我来处理,根据数据训练之后得到一个效果很好的分类模型。不过可能阿里会认为数据是涉及隐私的,我们不能向你们(清华大学)提供,但是腾讯和百度却认为我们应该交给可信赖的第三方,让他们研究,这样就形成了一种公司之间的竞争关系。最后,阿里也会给我们数据,因为我们确实可以训练出精度很高的模型,而且数据部分会处理加上一些噪声。


不过发给可信赖的第三方的数据可能有好有坏,作为奖励,提供给我们好的数据的机构,我们会把训练的精度高的模型给他们,而那些数据不是很好的机构,会给他们精度一般的模型来作为奖罚措施。问题是,我们如何知道数据好坏,这其实是机器学习领域一个非常简单的问题,我们将所有企业提供的数据来训练,比如最后精度是95%,然后,再单独拿阿里的数据或者是百度的数据训练,如果他们的数据训练的结果是90%,那说明他们给我们提供的数据还不错,如果低于这个值,那可能数据本身是有问题的。


我还有一个想法是最近想出来的,就是推荐系统。现在人们经常谈论的都是机器学习、深度学习在图像、语音方面的识别,然而最早的机器学习的研究是推荐系统,它是非常重要的,例如亚马逊能成为世界上领先的公司之一就是因为它的推荐系统,人们在网上买书,网站推荐给客户他们感兴趣的东西,这样客户可以购买更多的商品;还有推荐电影,我们可以向所有人去推荐同一部电影,每个人去电影院观看,可是对于推荐餐馆这件事,就不能这么做了,因为这样做很多人都去同一家餐馆,要排很长的队,很可能还没有空位,但现在如果我们有一个APP,它负责推荐电影院周围的餐馆,这样向潜在的客户发出邀请,可以保证餐馆的盈利和推荐系统的高效。


最后,再次祝贺清华大学大数据系统软件国家工程实验室成立,我非常期待它同世界其他实验室保持持续的交流合作,也感谢大会邀请我来做此次报告,谢谢!

编辑:文婧

校对:谭佳瑶

转载须知

如需转载文章,请做到 1、正文前标示:转自数据派THU(ID:DatapiTHU);2、文章结尾处附上数据派二维码。

申请转载,请发送邮件至datapi@tsingdata.com


为保证发文质量、树立口碑,数据派现设立“错别字基金”,鼓励读者积极纠错

若您在阅读文章过程中发现任何错误,请在文末留言,或到后台反馈,经小编确认后,数据派将向检举读者发8.8元红包

同一位读者指出同一篇文章多处错误,奖金不变。不同读者指出同一处错误,奖励第一位读者。

感谢一直以来您的关注和支持,希望您能够监督数据派产出更加高质的内容。

这篇关于独家 | Michael I.Jordan:大数据时代下的安全实时决策堆栈与增强学习(视频+精华笔记)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901791

相关文章

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Python实现将实体类列表数据导出到Excel文件

《Python实现将实体类列表数据导出到Excel文件》在数据处理和报告生成中,将实体类的列表数据导出到Excel文件是一项常见任务,Python提供了多种库来实现这一目标,下面就来跟随小编一起学习一... 目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出Da

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

Python实现数据清洗的18种方法

《Python实现数据清洗的18种方法》本文主要介绍了Python实现数据清洗的18种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统

Python数据处理之导入导出Excel数据方式

《Python数据处理之导入导出Excel数据方式》Python是Excel数据处理的绝佳工具,通过Pandas和Openpyxl等库可以实现数据的导入、导出和自动化处理,从基础的数据读取和清洗到复杂... 目录python导入导出Excel数据开启数据之旅:为什么Python是Excel数据处理的最佳拍档

在Pandas中进行数据重命名的方法示例

《在Pandas中进行数据重命名的方法示例》Pandas作为Python中最流行的数据处理库,提供了强大的数据操作功能,其中数据重命名是常见且基础的操作之一,本文将通过简洁明了的讲解和丰富的代码示例,... 目录一、引言二、Pandas rename方法简介三、列名重命名3.1 使用字典进行列名重命名3.编