​孙家广院士:大数据软件的机遇与挑战

2024-04-13 22:38

本文主要是介绍​孙家广院士:大数据软件的机遇与挑战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


来源:科技导报

本文约1600字,建议阅读5分钟

大数据作为产业发展的创新要素,在数据科学与技术、商业模式、产业格局、生态价值与教育层面,均带来了新理念和新思维。

2019年,大数据、数据科学、机器学习、人工智能领域的研究与应用持续发展。物联网与传感设备的普及带来数据的爆炸性增长。大数据作为产业发展的创新要素,在数据科学与技术、商业模式、产业格局、生态价值与教育层面,均带来了新理念和新思维。

大数据与人工智能的快速普及应用除了受数据量激增因素影响外,还有另外两方面因素影响:一是深度神经网络算法处理大规模非结构化数据集的能力越来越强;二是算力的飞跃。随着光刻技术进一步发展,终端设备和边缘设备的数据处理能力持续提高,云、端与边缘计算结合,实现低成本海量可用计算资源。

2019 年大数据与人工智能生态圈中,最活跃的领域包括:大数据基础设施服务、大数据分析服务、数据资源服务、数据源管理及API服务、跨平台数据存储及分析服务,开源大数据软件工具,以及在各个垂直领域的产业大数据应用和企业大数据应用。

大数据与人工智能生态圈顶层分类

大数据、人工智能与产业深度融合,在交通运输、电子商务、金融服务、医疗健康、科学研究等领域展现出广阔的应用前景。“数字化转型”是大数据技术应用的驱动力,是要让企业真正成为“数据驱动”的企业,使得企业生产更加绿色、智能。大数据已经逐渐成为企业升级转型发展的有力引擎,在提升产业竞争力和推动商业模式创新方面发挥越来越重要的作用。

同时,大数据也开辟了国家治理的新路径,国家社会管理现代化面临着由碎片型向整体型、由应急型向预防型、由管控型向参与型、由粗放型向精细型、由静态型向动态型转变的“五位一体”的全面变革。物联网推动互联网应用从消费领域向生产领域扩展,并逐步深入城市管理各个环节。通过对海量、动态、高增长、多元化、多样化数据的高速处理,人们快速获得有价值信息,提高公共决策能力,从而逐步改变国家治理架构和模式。

目前最重要的大数据技术领域主要包括以下4个方面。

01.生态系统的建设

提及大数据,就无法避免提及Apache Hadoop。多年来,Hadoop已经发展到包含整个相关软件生态系统,许多商业大数据解决方案都基于Hadoop,基于Hadoop的产品和服务市场持续增长;

其次,大数据处理引擎的研发,Apache Spark是Hadoop生态的重要组成部分,已经在生产环境中广泛部署,也吸引了大量的项目开发者;

此外,处理和统计数据的编程语言和软件环境,例如开源项目R语言得到数据科学家的广泛应用,许多流行的集成开发环境(IDE),包括Eclipse和Visual Studio,都支持R语言,R已经成为世界上最流行的用于大数据项目的高级语言之一。

02.海量数据存储方案

例如数据湖(data lake)。许多企业正在建立数据湖(存储来自许多不同的数据源的数据并按原态存储),当企业想要存储数据但尚不确定如何使用数据时,数据湖尤其具有吸引力。物联网(IoT)数据的爆发正在影响数据湖应用的增长。

03.NoSQL 数据库的发展

为适应非结构化数据的存储与高性能需求,以及相对不那么严苛的数据一致性的要求,Mon⁃goDB、Redis、Cassandra、Couchbase 等 NoSQL 数据库流行。随着大数据趋势的增长,NoSQL数据库变得越来越流行。

04.数据的预测分析

预测分析是大数据分析的子集,是根据历史数据预测未来事件或行为。通过数据挖掘、建模和机器学习技术,获取对未来趋势的洞察。

在大数据时代,机遇与挑战并存。大数据技术研究者在迎接数据与智能技术带来无限可能的同时,也不得不面对其所蕴藏的风险。随着公民个人和企业组织所有的行为均被数字化,海量数据的实时处理与分析技术更加成熟,大数据在带来奇迹的同时也引入滥用和误用的风险。大数据安全保护技术与数据权责管理成为大数据领域最重要的主题,任何组织都无法回避谁拥有影响未来的数据权的问题。

互联网的早期阶段,数据隐私更多是要保护用户在线行为的隐私,这只占人民日常生活的一小部分,因此得到的关注是非常有限的。随着个人生活和工作的全部活动都通过网络和互联设备来完成,海量数据融合的能力、人脸识别的能力、结果预测的能力、异常分析的能力整合在一起将带来严重的数据隐私风险。

作者简介

孙家广院士

孙家广,中国工程院院士,清华大学教授,现任大数据系统软件国家工程实验室主任、中国图学学会理事长。主要研究方向为计算机图形学、计算机辅助设计、软件系统及工程。

编辑:于腾凯

这篇关于​孙家广院士:大数据软件的机遇与挑战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901412

相关文章

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动

Oracle数据库使用 listagg去重删除重复数据的方法汇总

《Oracle数据库使用listagg去重删除重复数据的方法汇总》文章介绍了在Oracle数据库中使用LISTAGG和XMLAGG函数进行字符串聚合并去重的方法,包括去重聚合、使用XML解析和CLO... 目录案例表第一种:使用wm_concat() + distinct去重聚合第二种:使用listagg,

Python实现将实体类列表数据导出到Excel文件

《Python实现将实体类列表数据导出到Excel文件》在数据处理和报告生成中,将实体类的列表数据导出到Excel文件是一项常见任务,Python提供了多种库来实现这一目标,下面就来跟随小编一起学习一... 目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出Da

Python实现数据清洗的18种方法

《Python实现数据清洗的18种方法》本文主要介绍了Python实现数据清洗的18种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学... 目录1. 去除字符串两边空格2. 转换数据类型3. 大小写转换4. 移除列表中的重复元素5. 快速统

Python数据处理之导入导出Excel数据方式

《Python数据处理之导入导出Excel数据方式》Python是Excel数据处理的绝佳工具,通过Pandas和Openpyxl等库可以实现数据的导入、导出和自动化处理,从基础的数据读取和清洗到复杂... 目录python导入导出Excel数据开启数据之旅:为什么Python是Excel数据处理的最佳拍档

在Pandas中进行数据重命名的方法示例

《在Pandas中进行数据重命名的方法示例》Pandas作为Python中最流行的数据处理库,提供了强大的数据操作功能,其中数据重命名是常见且基础的操作之一,本文将通过简洁明了的讲解和丰富的代码示例,... 目录一、引言二、Pandas rename方法简介三、列名重命名3.1 使用字典进行列名重命名3.编

Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南

《Python使用Pandas库将Excel数据叠加生成新DataFrame的操作指南》在日常数据处理工作中,我们经常需要将不同Excel文档中的数据整合到一个新的DataFrame中,以便进行进一步... 目录一、准备工作二、读取Excel文件三、数据叠加四、处理重复数据(可选)五、保存新DataFram

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

MySQL中删除重复数据SQL的三种写法

《MySQL中删除重复数据SQL的三种写法》:本文主要介绍MySQL中删除重复数据SQL的三种写法,文中通过代码示例讲解的非常详细,对大家的学习或工作有一定的帮助,需要的朋友可以参考下... 目录方法一:使用 left join + 子查询删除重复数据(推荐)方法二:创建临时表(需分多步执行,逻辑清晰,但会