东软集团刘积仁:进行大数据研究要有新思维

2023-12-26 15:40

本文主要是介绍东软集团刘积仁:进行大数据研究要有新思维,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

雷锋网 AI 科技评论按:2018 中国计算机大会(CNCC2018)于 10 月 25-27 日在杭州国际博览中心举办,会议由中国计算机学会(CCF)主办,杭州市萧山区人民政府、浙江大学承办,浙江工业大学、浙江工商大学、杭州电子科技大学协办。

今年的大会主题是「大数据推动数字经济(Big Data Drives the Digital Economy)」,CNCC 邀请到近 400 位国内外计算机领域知名专家、企业家到会演讲。大会首日,共有如下五位嘉宾带来特邀报告:

图灵奖获得者、美国计算机科学家 Robert E.Kahn

CCF 名誉理事长、中国工程院院士李国杰

北京大学经济学院教授孙祁祥

美国工程院院士、加州大学伯克利分校教授 Katherine Yelick

东软集团董事长兼首席执行官刘积仁

作为最后一位上台演讲的嘉宾,刘积仁博士开场即幽默地表示,他是从学术界「堕落」到商业。他此次的报告主题是《当数据遇到商业模式》。

在报告中,他从商业应用的视角分享了自己对技术与商业模式融合的思考与实践。

针对大数据的未来发展趋势,他提出如下五点:第一,个人与行业数据的融合;第二,技术与工具的平台化和普及; 第三,纯技术的商业空间更小;第四,大数据的行业应用更有价值;第五,数据+算法+领域知识+商业模式不可分割。

他表示,「技术研究人员需要学会新学术思维,真正从行业应用中洞察大数据的未来趋势。」以下为他的演讲内容,雷锋网(公众号:雷锋网) AI 科技评论做了不改变原意的编辑整理。

TB1q1qgkW6qK1RjSZFmXXX0PFXa.jpg

我的报告主题是《当数据遇到商业模式》,今天在场有很多教授、博士生,还有许多研究人员,我以前在大学担任教授,在学校里做了很多研究,后来「堕落」去了商界。在这些年的历程中,我认为学术研究和社会发展事实上是不可分割的,当进行学术选择时,如果选错了方向,会成为一生的悲哀。

要有新的研究思维

举个例子,说起大数据,大家会谈到存储、速度、算法、算力等,但如果我们不能理解大数据对社会的价值、社会的规则对大数据的约束、商业模式和数据之间的关系、数据的伦理以及获取数据的艺术,那你的研究一定是苍白的,因为你没有办法在丰富的世界里表现出价值。刚才李国杰院士谈到大数据的产值比较低,并不意味着进行这方面研究的人数少,因为我们被很多因素制约。

首先来分析技术的时运,在场进行学术研究的人,一定知道学术研究背后也有运气,人工智能、大数据、超级计算机、智能计算这些都不是新东西。我读研究生时,最火的研究方向是计算机网络、VR、人工智能,也有一部分人从事自然语言理解的研究。

我当年在美国国家标准技术研究院,我们认为未来的网络协议需要支持更安全、复杂、可靠的服务,我们做了很多标准,但一直到今天,TCP 仍然主导网络世界,此前的研究并没有用上。所以当我们进行学术研究时,一定要看到社会发展的趋势,看到未来可能承载你成就的平台,而不能顺着所有人的共识。当所有人都欢呼那个方向就是未来的时候,你最好不要做,因为太晚了。当别人对你想进行的研究持怀疑态度的时候,可能那就是你最好的机会。

在大数据的时代,我们首先要认识到时运来自于什么。大数据时代的研究和我们过去所进行的很多研究的根本不同点在于环境,数字社会支撑了大数据时代,现在计算成本、存储成本、通信成本都越来越便宜,平台越来越丰富,网络实体越来越丰富,我们获取数据的成本也越来越便宜。

但是为什么大数据的应用并不如预期?互联网是个人数据获取的主要渠道,数据是每位用户自发提供的。但是想要进行精准的计算,支持可靠的算法,不仅要有个人需求,还需要来自于组织的数据。

TB1mhiek7voK1RjSZFNXXcxMVXa.jpg

解决问题需要高质量的多源数据与领域知识的结合。谈到数据融合,真正的融合不仅仅在数据层面,有数据与数据的融合,数据与规则的融合,数据与伦理的融合,还有数据与商业模式的融合。数据只有和商业融合在一起,才能形成一种新的模式。我们要超越的不仅仅是对数据的认识,还有对其他行业的认识。

TB1I81ckVzqK1RjSZSgXXcpAVXa.jpg

另外,大数据研究的思维方式也在发生变化,在数据利用上,需要有跨越技术的思维。没有高质量的数据,就没有精准的应用技术。但高质量的数据从哪里来,它来源于对解决问题领域的知识的理解。另外,数据利用需要开放合作。

目前还看到一个问题,每个人都倾向于有自己的技术、算法,这样我们的论文就可以与别人不同,但事实上,我们正以更快的速度把算法和技术平台化、免费化。大数据和人工智能算法在未来,一定是充分免费的平台,在这个领域里,几乎没有独立创造商业价值的空间。原因很简单,大数据和人工智能只有在应用中才能得到完善,在解决方案中才能获得价值。

TB1I81ckVzqK1RjSZSgXXcpAVXa.jpg

在未来,不管是这个领域的学者,还是正在学习的学生,大数据领域的赢家一定来自思维,一种新学术思维。当你不能构造一种崭新思维的时候,就像我最开始所说,你的时运和这种技术无缘。

TB1atd8k9rqK1RjSZK9XXXyypXa.jpg

大数据有很大的商业空间。其一是个性化与精准的营销,在银行业有客户意见挖掘、高端客户流失预警,媒体行业有热点分析、个性化内容推荐,航空行业有常旅客识别、旅客画像;其二是组织高效运营与风险管控,在金融行业有防欺诈,航空业有防恶意占座、机票价格监测等。这都是各行各业在应用大数据的例子。

TB1dICdkYPpK1RjSZFFXXa5PpXa.jpg

在应用大数据的时候,有一个很重要的问题就是伦理问题。这里涉及到隐私、公平、安全、社会价值、开放。在这个领域,如果能够找到技术和伦理的结合点,一定是未来一个很重要的发展领域。数字社会已经覆盖了中国大部分的人口,一个没有文化的数字社会,没有伦理的数字社会,一定是一个不可持续发展的社会。

再看大数据的发展趋势。

首先是个人与行业数据的融合,没有这种融合就没有精准和可靠的应用。

二是技术和工具的平台化、普及化。这是一个大趋势。

三是纯技术的商业空间更小。

四是大数据的行业应用更有价值。

五是数据+算法+领域知识+商业模式不可分割。

现在大数据的价值远远没有被发挥出来,所有的算法、数据只有在应用的过程中才能变得更加成熟。

站在东软的角度对技术进行思考

TB1Jl5ckVzqK1RjSZSgXXcpAVXa.jpg

简单谈一下东软的实践,谈谈我们是怎么想,怎么看待数据的。东软在过去 27 年来致力于推动国民经济基础设施与重要民生领域的信息化水平不断提高,在众多行业拥有领先的市场占有率。下图是我们在中国拥有的数据,我们为 7 亿人提供社会保险服务与支持系统,我们的电力营销系统为 4 亿人支付电费提供服务。拥有这些数据有什么意义?如果不在社会的层面思考这些数据,是没有意义的。我们需要有不同的思考,是超越技术的思考。

TB1fgKbkYvpK1RjSZPiXXbmwXXa.jpg

以下是我们在健康、医疗领域的数据,医疗要求用复杂的生态系统来实现。当我们谈到大数据,就要谈到健康,谈到健康的时候就会谈到医院。医疗质量、公平、成本、安全,这是大数据在健康、卫生、医疗里要解决的根本问题。

我们首先要有这样的逻辑,在看到这些逻辑的时候,能否在里面找到技术发展的方向,当找到发展方向,我们会构造组织,构造人工智能应用的范围,然后用人工智能技术控制医疗费用支出等等。我们要构造互联网云医院,使得更多的医疗行为从大医院走向基层,我们要实现医疗的公平性,控制不断上涨的医疗费用,实现医疗的分层次服务,建立个人的动态健康与医疗档案,使医疗更加个性化和精准。

数据和 AI 让基层医院更强大,我们可以构建医联体,如下图:

TB1FeSdk5rpK1RjSZFhXXXSdXXa.jpg

超越技术变成从事技术研究的必须选择,如果我们不了解社会,不了解生态,不了解其他行业,我们怎么能谈数据?

TB1aaV_k9zqK1RjSZPxXXc4tVXa.jpg

为大家谈谈新信息技术观:    

信息技术成为日用品、消费品、生活方式。

信息技术失去了独立性,无所不在,与应用场景相伴。

技术进入平台化、普及、快速传播时代,也是平台、技术、工具免费的时代。

技术的使用者比技术拥有者更知道技术发展的方向。

技术拥有者从专注变成超越。

开放、融合、合作是技术路线的重要组织部分。

技术进步速度加快,不要对自己的技术过于自信,应用与普及是检测技术领先的重要标准。

大数据是新商业的支撑,而只有在开放、融合、创造的环境下,大数据才能拥有价值。传统的教育、科研方式与过去的模式不一样了,而约束它的不是别人,不是这个社会,正是我们自己,我们自己是否能适应这个时代的变化,适应新商业、新零售、新学术、新科研。

(完)

敬请关注雷锋网 AI 科技评论更多现场报告。

这篇关于东软集团刘积仁:进行大数据研究要有新思维的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/539981

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

pandas数据过滤

Pandas 数据过滤方法 Pandas 提供了多种方法来过滤数据,可以根据不同的条件进行筛选。以下是一些常见的 Pandas 数据过滤方法,结合实例进行讲解,希望能帮你快速理解。 1. 基于条件筛选行 可以使用布尔索引来根据条件过滤行。 import pandas as pd# 创建示例数据data = {'Name': ['Alice', 'Bob', 'Charlie', 'Dav