2016年腾讯大数据技术峰会参会总结

2024-05-15 17:38

本文主要是介绍2016年腾讯大数据技术峰会参会总结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、 深圳一日闲游,感受创新之都的魅力
从没有到过深圳,但是却一直被深圳所吸引,深圳是我们国家的创新之都和创业之都,不管是在新闻报道还是行业领域,都能感受到深圳的实力存在,中央电视台财经频道所推出的纪录片《创新之路》、《互联网时代》和《商战之电商风云》中都有很多来自深圳的故事,很多行业领头羊也驻扎深圳,大疆无人机、华为、中兴、腾讯等有实力的科技公司。
在老师的准许下,我提前一天到达深圳,就是为了去感受一下创新之都的魅力,骑着用手机APP扫一下就可以开走的mobike,然后在这座城市里穿梭,这是周六,本来以为街上商场会人头攒动,可是街道上稀稀疏疏的路人,还是非常行色匆匆,估计大家这会都忙着吧,去了深圳必去的世界之窗,并拍了一张到此一游的照片;去了欢乐海岸大疆全球首家旗舰店,体验了一把操控最先进的无人机;去了造就深圳创新之都的深圳华强北,拥挤的小店铺传来不断地胶布的撕裂声,各种电子产品琳琅满目。
在我下榻的酒店路上,到处都是出租的信息,租房是如此之贵,然而还是有络绎不绝的人来深圳,这其中的奥秘也是值得人思考的。

二、 大数据峰会,聆听大咖的科学之声
早早地就来到峰会现场占据有利位置,快开始的时候往后一看,果然是座无虚席,可见本次峰会人气很高,这也难怪,在来之前对嘉宾进行了适当的了解,都是学术界的大咖和很多独角兽科技企业的大牛,峰会的档次就逼格了不少,下面就总结一下参会嘉宾及其演讲内容:
(1) 演讲主题:大数据,AI的推动力
张宏江 博士,金山软件CEO、ACM Fellow、IEEE Fellow。
张博士以AlphaGo和李世石的围棋比赛为例,介绍了强大的AlphaGO中蕴含的相关技术,包括推理算法和深度学习算法,高质量的数据训练,高性能的计算资源。介绍了现在数据爆炸的趋势、计算性能的显著提升和成本降低,这些都成为人工智能发展的助推器。张博士又从他所熟悉的图像识别技术,以人脸识别为例,展示了计算能力的惊人扩张史。介绍了大数据在企业中使用的增长情况,以及机器学习和深度学习在各方面的应用。最后张博士以今日头条为例,从它每日获得实时数据量和智能分发,畅想了今后十来年AI将成为产业的核心竞争力,产业的三种方式有自主开发、咨询服务和人工智能即服务,而人工智能的竞争门槛就是数据和人才,最后高度概括的总结为:AI=大数据+新算法+强计算。
(2) 演讲主题:从深度学习到迁移学习
杨强 香港科技大学讲座教授、计算机系主任,AAAI Fellow、IEEE Fellow、美国计算机学会杰出科学家、KDD China主席。
杨强教授举例阐述了现阶段AI成功的五个必要条件:大数据、边界清晰、跨界的数据科学家、计算资源和外部反馈。也介绍了深度学习的未来趋向:更深层次、更多种类、可解释、可编程、因果关系和知识抽取。杨强教授也总结了AI的技术风口在哪里,主要包括深度学习(更深层次和种类的学习、可解释的深度学习、表示学习、基于逻辑和结构自适应)、强化学习(深度、强化迁移学习)、迁移学习与逻辑知识学习(知识的高层表达、跨领域的知识迁移、小数据的学习)、非结构化(自然语言与信息抽取、自动问答和对话系统)、算法加速(新的体系架构、硬件芯片)和工程化(可靠性、一致性和人人可学、AutoML),杨强教授从迁移学习的实现方法的四个方面介绍了机器从源领域向目标领域的迁移学习,包括样本迁移、特征迁移、模型迁移和关系迁移,并且提出一种新的迁移学习概念——传递式迁移学习。最后杨强教授举例说明了迁移学习在舆情分析、在线推荐系统等方面的应用,感慨机器学习从深度学习、强化学习到迁移学习的发展。

(3) 演讲主题:互联网金融中的人工智能
沈抖 博士,百度金融服务事业群组执行总监、百度金融服务事业群组研发负责人、KDD China副主席
一开始,沈博士就向我们介绍了传统金融机构是如何利用大数据能力应对自身面对的挑战和机遇,银行尝试利用大数据进行用户画像、精准营销、风险管理和运营优化进行驱动业务发展和创新,保险业利用大数据进行风险评估和定价、交易销售、客户流失管理和理赔敲诈检测,证券业使用大数据进行股价预测、客户关系管理和投资景气指数预测。沈博士介绍了全球金融科技发展提速而中国市场成为核心高增长引擎,在这种情形下,百度基于自身大数据的能力,聆听市场的需求,升级传统金融成立百度金融事业部,并且在金融的安全防护、智能获客、大数据风控和量化投资等方面进行技术研发。在安全防护方面,百度金融有实时全天候在线保障的全方面防护系统,也有基于大数据融合分析的个人账户风控系统,并且提出了手写签名的方式来进行安全验证。在大数据风控和智能获客方面,百度金融基于大数据构建了完整、精准的金融用户画像,然后依托海量流量,结合用户画像和响应模型,实现精准触达。在智能获客方面,首先进行及时需求定向,然后设定响应模式进行智能出价,在营销创意优化和存量客户智能补贴进行优化模型。百度金融采用信贷全面风险管理计量模型,拥有大数据快速迭代的风控能力,使用百度自身独有的时空数据辅助判断资产的质量,来实现更加有效地风控。在量化投资方面,百度金融利用机器学习技术建立量化投资的差异化优势,百度特色的大数据搜索数据,从个股搜索中提炼股票的市场关注度,然后构建基于百度大数据因子的量化股票投资对冲策略。最后沈博士发出豪言壮志:百度金融致力于成为一家真正意义的金融科技公司,利用大数据、人工智能扥技术优势,升级传统金融,实现普惠金融的梦想。

(4) 演讲主题:城市计算:用大数据驱动城市智能
郑宇 教授、博士,微软亚洲研究院城市计算领域负责人、美国计算机学会杰出科学家、KDD China秘书长
郑宇教授从管理城市大数据存在的困难出发,就是大尺度和高动态以及云计算对时空数据不太好的支持,构建了一个针对时空数据的云计算框架。这个云计算框架五层,第一层是数据层,包括时空状态数据类型、空间静态-时间动态数据模型和时空动态数据模型;第二层是存储层,包括Azure SQL、Azure table、Azure blob、Azure file。第三层是云计算环境,包括Hadoop、spark、storm和redis,以及在此基础上的空间索引、时空索引和值索引;第四层是数据分析,包括针对时空数据的数据挖掘和机器学习以及跨域数据融合方法和可视化分析;第五层是在各行各业中的应用。然后郑宇教授以备受全球关注的空气污染问题为例,详细介绍了真个解决方案的过程,还提出方案的迁移的想法。郑宇最后总结:大数据是解决领域问题端到端的能力,大数据=平台+数据管理+机器学习+可视化,也表示AI在时空数据的应用也很有前景。
(5) 演讲主题:深度学习技术在自然语言处理领域的演进
李航 教授、博士,华为诺亚方舟实验室主任、美国计算机学会杰出科学家、KDD China委员
李教授从卷积神经网络深度匹配在自动回答问题中的应用,多模型卷积神经网络在图像检索中的应用,覆盖矢量和背景门在神经机器解译中应用、神经应答机器在自然语言对话中应用。(讲的算法比较难懂)
(6) 演讲主题:领域知识驱动的个性化推荐方法
陈恩红 中国科学与技术大学教授、计算机学院副院长,国家杰出青年基金获得者、KDD China委员
陈教授一开始介绍了大数据的特点,大数据从“概念”走向“应用”,各行业急剧增长的数据量为推荐系统的应用奠定了基础。陈教授介绍了传统推荐系统的常用方法:结合基于内容的特性和协同过滤的特性进行推荐,还有基于用户画像的推荐方法。陈教授从现在面临的教育领域问题着手,有针对性的给予三个对应解决方案:学生作业多、课业繁重——试题推荐;学生对自己的学习状态没有直观的认识——认知诊断;老师对班级内学生难以顾全——学习分组。陈教授采用模糊认知诊断模型组对学生进行认知诊断,采用结合学生个性和学生学习共性的的模型来进行试题推荐,采用给予学生差异和基于收益两种分组算法进行基于认知诊断的协同学习分组,然后从满足客户偏好的金融产品个性化推荐和结合产品特性进行潜在投资人的推荐的场景讲了金融大数据应用与推荐系统的关系。最后陈教授总结:面对不同领域独特的应用场景,繁华的模型结果很难以满足用户的需求,通过结合各行业独特的领域知识,构建适用于不同领域的推荐系统。陈教授认为现有的推荐系统应该提高可解释性、加强针对性和数据筛选的有效性。
(7) 演讲主题:大数据在滴滴的应用
叶杰平 教授,滴滴出行研究院副院长、美国密歇根大学终身教授
叶教授开始介绍了滴滴出行这几年的疯狂式发展和数据的爆炸式增长,滴滴出行的数据量达到300TB,其中图像数据13B,路线规划数据13B,订单分发1B。叶教授介绍了人工智能在ETA(-ESTIMATED TIME OF ARRIVAL)、智能分单、拼车、供需预测、运力调度和热力图中应用和各种算法模型,滴滴大数据-九霄在事件预测、位置定位中的应用。
(8) 演讲主题:腾讯sort benchmark夺冠背后的架构与算法优化。
蒋杰 腾讯首席数据专家、数据平台部总经理,KDD China委员
腾讯数据专家蒋杰开始介绍了这几年全球大数据计算性能进化史,腾讯在2016年获得98.8s的最新记录。腾讯利用更低的成本、内存最大化利用、高效的调度和并行以及IO优化最大限度压榨计算机性能。然后介绍了腾讯第一代产品TDW和融合storm和spark的第二代实时流式计算架构。最后介绍了腾讯正在研发使用的第三代高性能计算框架angel,angel计算框架以HDFS为基础存储层、Gaia调度层、计算节点和master与参数服务器上层,angel同时支持BSP/SSP/ASP,支持数据并行及模型并行,angel提供丰富的算法库,包括丰富的机器学习及数学计算库和有好的用户编程接口,angel同时提供更大规模数据集的训练能力,angel第三代计算平台将在2017年开源供用户免费使用。
(9) 演讲主题:关于机器学习研究的讨论
周志华 南京大学教授、计算机系副主任,ACM Fellow、AAAI Fellow、IEEE Fellow、KDD China副主席
周教授开始从互联网搜索、生物特征识别、汽车自动驾驶、火星机器人、美国总统选举和军事决策助手等应用场景阐述了机器学习已经无处不在,虽然机器学习很强大,但是并非是万能钥匙,特别是在特征信息和样本信息不充分情况下。首先提及机器学习中最重要的理论模型—概率近似正确(PAC)。陈教授讲到深度学习从技术上来看就是“很多层”的神经网络,然后回顾了神经网络的发展史,然后揭露了算法的局限性,难以获得充足样本、难以避免数据泄露、难以获得专家级结果、难以了解模型和难以适应环境变化。最后陈教授提出一个新的观点:“学件”=模型+规约,其中规约能够给出模型的合适刻画,模型满足可重用、可演进和可了解,而学件能够很好地解决上述所存在的局限性,学件将可能催生一个新的产业。
三、 大数据峰会后的总结与感悟
(1)深圳节奏带来的思考
深圳曾经因为是特区,所以吸引了无数的人来这里工作,现在因为这里是中国制造业的中心,中国的创新之都,很多人来这里寻找机会,来这里实现梦想,虽然这里房价很高,物价也不低,但是仍然很多敢于挑战的年轻人来到这里,因为在这里你可以完全靠实力赢取一份工作,并且有很好的发展机遇。这种匆忙的节奏是每一个平凡的人对梦想的追逐的脚步声,是每一个平凡的人希望通过辛勤努力来追求美好生活的脚步声。所以,当我们年轻的时候,就应该敢于挑战,推陈出新,不应该在奋斗的年纪选择安逸,应该趁年轻做一些有意义有趣的事情。
(2)学术大咖身上的风范
参加这次峰会的嘉宾都是各个行业领域中出类拔萃的领军人物,他们十几二十年沉浸在一个领域里耕耘细作,默默无闻并且乐在其中,在演讲的过程中,他们就像一个小孩子一样对未知的领域充满了好奇,然后像分享“糖果”一样将自己的发现和成果分享给别人,从中获得一种自我实现的成就感,这就是知识分子对知识和科学的单纯。他们的热爱科学、执着和谦逊也深深地感染者我们。
(3)学习道路上的新感悟
从小学到大学,除了主课,其他的都是杂课,杂课被视为可有可无。从孩童到成年,爸妈都认为除了学习文化知识,其他都是“不务正业”。参加峰会的很多大咖,他们不只是学术上的大牛,在其他方面也表现突出。到现在才慢慢明白,“学习”不只是学习文化知识,更是学习怎么做一个在社会关系网中充当各种角色的人,更是学习怎么去热爱生活,学习怎么去提出问题、独立思考和独立解决问题……
而在专业学习探索的过程中,很多会误入这样的盲区,我只需要往一个方向深挖就可以了,其他行业知识不用了解,其实不然,人与人之间的隔阂与壁垒就是人与人掌握信息和理解信息的差异造成的,一千个人眼里有一千个哈姆雷特,有时候我们需要站在另外一个“哈姆雷特”的角度来看待这个问题,这就需要我们在学习过程中能够博闻强识,扩充视野,各行各业知识之间的相互融合往往会诞生新的解决方案,甚至新的行业和产业。
(4)学术研究里的新想法
每一件事或者每一个物体都是有其空间或者时间特性的,传统的时空数据模型是进行弱结构化定义,觉得时空数据模型,其实可以就是一张数据网络,可以像“学件”一样,进行组装后形成一个完整的数据模型,可增可减,每个节点就是时空数据的子型,节点之间的连线就是子型之间的关系,这种时空数据模型就是采用立体图和网络的概念。
空间位置很多时候是其他行业解决方案中的一个因子,地图很多时候也是其他行业展示的一个方式或者载体。现在地信在其他行业应用不断深入,所以地信的研究必然也是结合其他行业的专业知识,而我们要研究的是在特定领域,空间位置在解决方案中充当什么角色和权重,而地图这个载体,我们需要考虑的是如何更好地将各种数据更加直观和方便的呈现在地图这个载体上,当然地图这个载体也是不能局限于单纯的传统地图,更应该畅想新的表达方式。

这篇关于2016年腾讯大数据技术峰会参会总结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/992488

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi