本文主要是介绍数据科学——一个系统的探讨,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文末附M. Tamer Özsu教授《Introduction to Data Science》讲座视频
本文的目的是提出一个内在一致和连贯的数据科学观点。
在科学和社会领域,一场以数据驱动的革命正在进行,颠覆着各种形式的企业,因为我们收集和存储数据的速度比以往任何时候都要快。数据作为一个组织的核心资产的价值观已经被确立,并被普遍接受。《经济学人》(The Economist)称数据是“世界上最有价值的资源”。世界经济论坛简报《数据业务新范式》(A New Paradigm for Business of Data)指出:“数字经济和社会的核心是洞察力、情报和信息数据的爆炸式增长。”
数据科学领域有望利用数据做出更好的决策并产出更有意义的成果。尽管数据科学这个术语有一定的历史,但目前它作为一个现代研究领域,已经具有重大的经济影响力。2015年经济合作与发展组织(OECD)的一份报告将“数据驱动型创新”(Data-Driven Innovation,DDI)定义为“利用数据和分析改进和培育新产品、流程、组织方法和市场”,并指出“数据驱动型创新”在21世纪的经济中发挥着核心驱动作用。数据科学目前的应用只能称得上初级阶段,但是它的影响已经在许多领域得到了体现:全球可持续性发展、电力和能源系统、生物和生物医学系统、健康科学和健康信息学、金融和保险、智慧城市、数字人文等。
在过去的十年里,大数据(big data)、数据分析(data analytics)和数据科学(data science)等术语进入了我们的词典,它们既是流行语,也是重要的研究领域。正如谷歌趋势(Google Trends)(见图1)所显示的,对该主题的兴趣在这一时期呈爆炸式增长。越来越多的国家发布与数据科学相关的政策声明。在学术界,数据科学项目和研究机构正以惊人的速度被建立起来;与此同时,众多业界组织也纷纷设立了数据科学部门。对这些项目和举措的快速调研表明,它们尽管有一个共同的核心,但缺乏统一和清晰的数据科学框架。
图1 数据科学相关术语的谷歌趋势
为什么需要对数据科学进行系统的探讨?有如下几个原因。首先,有助于我们理解数据科学是否为一门学科。如果缺乏对数据科学的明确定义以及对其核心和边界的界定,那么很难确认数据科学是否为一门学科。其次,能够为正在建设中的众多数据科学研究所和学术单位提供一个知识(或概念)上的统一框架。再次,有助于明晰对数据科学家的定义。对数据科学进行系统探讨的关键不是限定数据科学家的含义,也不是限制当前学术活动的范围,而是要明确数据科学家与其他领域科学家的不同。最后,能确定专业数据科学家须具备的重要技术和工具。
对数据科学进行系统探讨的困难之一是,大数据、数据分析和数据科学这些术语在许多流行文献中经常被随意地互换使用;这种情况在技术文档中也经常发生。正确理解这些术语很重要。数据分析是数据科学的一个组成部分,并不是数据科学的同义词。数据科学与大数据的不同在于:大数据像原材料,它有相当大的前景和潜力,前提是知道如何使用它;数据科学则确定大数据的处理目标和处理方式,以充分发挥其潜力并达到相应的目标。数据科学通常以应用驱动的方式完成任务,即通过应用构建研究目标和问题。应用是数据科学的核心;如果没有应用驱动查询,就不能叫数据科学。贾格迪什(Jagadish)也强调了这一点,他说:“‘大数据’首先分析数据特征(由此自下而上地展开),而‘数据科学’首先分析数据应用(由此自上而下地展开)。”
对数据科学进行系统探讨的第二个困难在于:关于数据科学、机器学习(Machine Learning,ML)和数据挖掘(Data Mining,DM)之间关系的许多定义都存在模糊性——这源于日常用语中,数据科学常常被用来指代基于机器学习和数据挖掘技术的数据分析。严格意义上,数据科学不是机器学习和数据挖掘的子领域,也不是这些学科的同义词。更广泛地说,认为数据科学是人工智能的子研究主题是一种常见的混淆学科边界的说法,数据科学并不是人工智能的子研究主题。人工智能和数据科学在概念上属于不同的领域,只是当机器学习和数据挖掘技术用于数据分析时,它们会有一些重叠。但除此之外,人工智能和数据科学都有各自更广泛的关注面。本文将讨论更广泛的数据科学范围,重点讨论其不属于人工智能的组成部分。相反,人工智能中的一些主题,如智能体、机器人、自动编程等,也不在数据科学的范围内。因此,人工智能和数据科学是相关的,而不是互相包含的。
对数据科学进行系统探讨的最后一个难点是:数据科学的范畴非常广泛,涵盖了众多学科领域,因此给出一个恰当的综合分析并非易事。哪怕进行简单地划分,对数据科学感兴趣的不同群体也包括:专注于基础技术和基本原理的STEM(科学,技术,工程,数学)从业人员(例如计算机科学家、数学家、统计学家);专注于科学和工程数据科学应用的STEM从业人员(例如生物学家、生态学家、地球和环境科学家、健康科学家、工程师);以及专注于社交、政治和社会方面的非STEM领域人士。重要的是,围绕数据科学的讨论需要涵盖所有这些群体,并建立一个可界定的领域核心。这是一种很难维持的平衡。
本文的目的是提出一个内在一致和连贯的数据科学观点。本文讨论了数据科学的核心组件、涉及的学科、生命周期和相关群体,主要结论如下:
• 对整个数据科学领域清晰地建立了一个一致且包容的观点,这一点很重要。
• 为了避免过于宽泛,在保持包容性的同时,有必要定义数据科学领域的核心;确定了数据科学的四个核心领域。
• 从全局视角出发对构成数据科学的活动进行了全面论述。
• 建立了一个促进多个学科之间合作与协作的框架。
作为一个新兴领域,数据科学仍处于发展的早期阶段。本文围绕其性质和范围进行讨论,希望能有更多人参与讨论,更好地定义这个领域。
什么是数据科学?
数据科学的起源模糊不清。统计(statistics)和计算机技术(computing)这两个领域都以数据为核心,因此它们都试图对数据科学进行定义。统计学家们认为,数据科学的起源可以追溯到约翰·图基(John Tukey),他在20世纪60年代强烈主张将“数据分析”从“经典统计学”中分离出来。他的主要观点是:数据分析是一门经验科学,而经典统计学则是纯数学。图基将数据分析定义为“分析数据的过程,解释分析结果的技术,使分析更加简易和精确的数据收集方法,以及适用于数据分析的统计学方法和统计学结论。”另一方面,自从计算机技术作为一门学科确立以来,对数据进行精确定义就对其十分重要。国际信息处理联合会(IFIP)对数据的定义是:“一种事实或者想法的规范化表示,能够被用于通信或程序操作。”诺尔(Naur)在此基础上给出定义:“数据科学是对数据进行处理的科学,一旦其自立学科门户,数据与其表征内容之间的关系则委托给其他领域和科学。”
显然,统计学家和计算机科学家长期以来一直在思考数据科学,他们对数据科学的理解也随着时间的推移而不断发展。21世纪的头十年发生了一个微妙的转变,人们认识到数据科学的涵盖范围大于数据分析,它涉及从数据获取到产生见解和可操作建议的整个过程。在这一时期,采用数据密集型方法解决问题有了实际成效。这次“大数据革命”在许多领域催生了以数据为中心的方法。这一过程始于一种计算型范式(也被称为第三范式),它指的是使用计算方法增强或替代实验类方法(2001年《纽约时报》的一篇文章宣称“所有科学都是计算机科学”),并迅速演变为数据密集型方法。后者通常被称为第四范式,数据科学则系统化了这种理解。
当前对数据科学的理解与传统意义上的数据分析存在显著差异。更现代的数据科学定义采用了更广泛的解释,例如“数据科学包含了用于从大型数据集中提取出非显著而有价值的模式的原则、问题定义、算法和程序”。美国国家数据科学联盟(NCDS)是一个来自学术界、工业界和政府的领导人组成的联盟,它将数据科学定义为“对组织和使用数字化数据以支持研究、决策和数据驱动经济的系统研究。”这些仍不足以精确地定义一个领域,但已经抓住了一些重要的共同主题:跨学科性、基于数据(data-based)解决问题的方法、大规模和多模态数据的使用、关注通过发现数据中的模式和关系获得见解和价值,以及潜在的面向过程的生命周期。
一个能够捕捉数据科学本质并体现其过程性的综合定义如下:数据科学是一种基于数据解决问题的方法,通过分析和探索大规模且尽可能多模态的数据,从中提取知识和见解,并利用这些信息进行更好的决策。它涉及收集、准备、管理、分析、解释和传播数据以及分析结果的过程。这与当前对该领域广泛范围的理解是一致的——例如美国计算研究协会(CRA)对该术语的使用(详见文献)。
注意,该定义有意使用了“基于数据的”一词,而不是更常见的“数据驱动的”(data-driven)。后者经常被解释为“数据应该是决策的主要(甚至是唯一)基础”,因为“数据可以不言自明”。这种观点是错误的——数据确实包含了事实,可以揭示某件事情,但它只能通过解释它的人讲述,而这可能会引入偏见。因此,数据应该作为决策的一个输入,而不是唯一输入。此外,“数据驱动的”已经意味着有可能通过自动化工具获取数据并进行分析,从而生成自动化的行动。这种依赖预测性和规范性分析的想法最近很流行且被过度依赖,这是有问题的。尽管数据科学具有巨大的潜力,成功的数据科学应用也很多,但太多的数据滥用也足以让我们迟疑和担忧,例如谷歌利用社交媒体数据检测流感传播的算法,以及美国司法系统中使用的风险需求评估测试。因此,“基于数据的”是更可取的描述,它表明数据科学部署是对决策者的辅助,而不是决策者本身1。
数据科学的生态系统
数据科学本质上是跨学科的:它建立在数据工程、数据分析、数据保护和数据伦理这四个核心能力之上。这四个核心能力是数据科学的四大支柱(见图2),其中有些是技术性的,有些不是。虽然术语“数据科学”经常只用于指代数据分析,但其范围更广,并且数据科学领域的其他要素也应该被适当地认识。数据科学的核心在于其与某些应用领域密切交互,这些互动具有双重作用,一方面能够从中知晓采用哪些适当的技术、工具、算法和方法论,另一方面这些技术、工具、算法和方法论对于开发和利用这些功能来解决问题也是有用的。数据科学应用程序的部署对现有的社会和政策环境高度敏感,这些环境同时影响了数据科学的核心技术和应用部署。
图2 数据科学四个支柱
数据工程
数据是数据科学的核心,数据科学使用的数据类型通常被称为大数据。大数据没有统一的定义,但它通常具有如下特征:数据规模大(volume),包含结构化数据、文本、图像、视频等多种数据类型的多模态性(variety),有时呈现为高速数据流(velocity),以及有时存在质量问题(veracity,即准确性),被称为“4V”特征,有效地处理这些特征是大数据管理(big-data management)领域的任务。数据科学中的数据工程解决两个主要问题:大数据的管理(包括数据管理的计算平台)和为分析而做的数据准备。
在数据科学应用开发和部署中,管理大数据是具有挑战性且至关重要的。大数据的数据特性与传统数据管理系统的设计目标大不相同,因此需要新的系统、方法论和技术。管理大数据需要一种数据管理平台,提供适当的功能和接口,用于数据分析、执行声明性查询和实现复杂的搜索,而这些超出了目前数据管理系统的能力。目前的各个数据管理系统都是针对特定的数据模型专门设计的,并且需要支持不同抽象层级、流畅集成和无缝互操作性的元模型。数据准备通常被理解为数据集选择、数据获取、数据整合和数据质量保证的过程。对整合后的数据进行适当的分析将提供新的见解,进而提高组织的有效性和效率,并产生有数据支撑的策略。然而,为了使这种分析产生有意义的结果,输入数据必须经过适当的预处理并且值得信赖。分析模型的质量差别不大。如果输入数据不干净且不可信,那么结果就不会很有价值,数据科学中有句谚语“垃圾进,垃圾出”形容得非常到位。数据质量是衡量数据是否可信进而能否用于分析的基本要素,它对大数据的真实性(veracity)负责。数据质量被认为是数据科学成功的关键,它也是大多数组织的数据准备工作的主要组成部分。
数据质量和数据可信度的一个重要载体是元数据和元数据管理。一个特别重要的元数据是数据来源(provenance),也就是追踪原始数据的来源。另一个挑战是开发和制定合适的系统和工具管理数据来源,并在数据处理过程中对其进行跟踪。
数据质量的一个非常重要的方面是数据清洗。当使用来自多个数据源的数据时,必然会出现数据不一致、数据错误和数据缺失的问题,这就需要进行纠正(清洗)。数据清洗的技术和方法论是数据工程的重要组成部分。
数据分析
数据分析应用统计学和机器学习技术,从所研究的数据中获得见解,并对所研究系统的行为做出预测。在数据分析中,第一层级是推理和预测。推理的基础是建立一种模型,该模型通过表示输入变量和它们之间的关系描述系统行为。预测是更进一步确定可能产生“最佳”结果的行动方案。推理和预测还可以被细化为四种不同类别:描述性分析,它回顾性地查看历史数据以回答“发生了什么?”或“数据告诉我们什么?”;诊断性分析,也是回顾性的,但超越了描述性,回答“为什么会发生这种情况?”;预测性分析,即对历史数据的前瞻性分析,通过计算预测可能发生的事情;规定性分析,即更进一步地推荐行动方案。预测性分析和规定性分析通常一起被称为高级分析。这四种分析之间的关系通常从复杂性和价值这两个方面来评价。从描述性分析到规定性分析,分析变得更加复杂,但是从中获得的价值也大幅增加。
数据科学中通常使用六种数据分析任务(方法):聚类,基于数据点的“相似性”发现有意义的数据组或数据集合(同一集群中的数据点彼此之间比其他集群中的数据点更相似);异常值检测,识别数据集中与大多数数据显著不同的稀有数据项;关联规则学习,发现大型数据集中变量之间的有趣关联;分类,找到一个函数(模型),将给定的数据项对应到一组预定义的类中的某一类;回归,找到将一个或多个自变量与因变量关联起来的函数;摘要,创建一个更紧凑的数据集表示。
如前所述,数据科学中的一个重要数据源是流数据。在这种情况下,我们必须考虑实时分析,因为数据是不断流动的。实时分析尤其具有挑战性,因为大多数分析算法的计算量很大,通常需要对数据集进行多次遍历,这在流数据中具有挑战性。
在数据科学项目中,需要考虑的一个重要因素是为任务选择适当的技术,以及如何应用这些技术。考虑到社会因素对数据科学应用和部署的影响,分析结果的可解释性同样重要。
数据保护
数据科学对来源不同的大规模多样性数据的依赖引发了重要的数据保护问题。数据的规模、多样性和互联性(例如在线社交网络)需要我们重新审视主要面向企业数据开发的数据保护技术。
数据保护通常针对数据安全和数据隐私这两个子问题进行讨论。数据安全保护信息免受未经授权的访问或恶意攻击,而数据隐私关注用户和组织对自己数据的权利。数据安全通常处理数据机密性、访问控制、基础设施安全性和系统监视等问题,并使用加密、可信执行环境等技术以及监视工具。数据隐私涉及隐私政策和法规、数据保留和删除政策、数据主体访问要求(DSAR)政策、第三方使用数据的管理以及用户同意等问题。数据隐私通常涉及隐私增强技术。虽然对这些主题的研究通常是孤立的,但采取整体和更广泛的视角是有帮助的,因此使用“数据保护”这个词更为合适,因为它包含了更全面的信息。
数据科学中所使用数据的特征带来了独特的挑战。数据的大体量使访问控制机制的实施变得更加困难,并且使检测恶意数据和使用变得更具挑战性。数据来源的数量和多样性使注入错误/虚假信息、歪曲分析结果成为可能。数据科学平台必然是横向扩展(scale out)的系统,这也增加了其遭受攻击的可能性。这些环境也增加了监视的可能性。潜在终端用户的巨大数量和不断变化,以及很多应用对于分享分析结果和增强分析的需求,加大了数据泄露和滥用的可能性。这些因素严重增加了威胁程度和攻击面。因此,从数据采集到结果传播,以及安全存档或删除,整个数据科学生命周期都需要保护。数据科学的一个隐含目标是获得对尽可能多的数据的访问权,这与基本的最少特权原则(least-privilege security principle)直接冲突,这一原则要求尽可能少地开放资源的访问权。为减少冲突,就要仔细地重新设计和改进安全技术,以保护科学结果的完整性、数据隐私,并遵守管理数据访问的法规和协议。隐私保护数据挖掘就是基于这种考虑的一种技术。
数据科学伦理
数据科学的第四个组成部分是伦理。在许多讨论中,数据伦理与数据隐私的讨论捆绑在一起。这两个主题当然有很强的关系,但它们应该被视为数据科学核心中相互独立的支柱。文献通常将数据伦理(data ethics)描述为“……研究和评估与数据……算法……以及相应的实践有关的道德问题的伦理学分支,以制定和支持符合伦理的解决方案。”该定义承认了数据伦理问题的三个维度——数据、算法和实践。
• 数据伦理是指收集和分析大型数据集带来的伦理问题,以及在各种应用程序中使用大数据所产生的问题。
• 算法伦理解决算法日益增长的复杂性和自主性带来的问题,包括算法的公平性、偏见问题、公正性、有效性、可靠性。
• 实践伦理针对的是负责数据流程、战略和政策的人员和组织的责任和义务。越来越多的人工智能伦理研究解决了其中的许多问题。
数据科学伦理中最重要的概念之一可能是知情同意(informed consent)。数据科学项目的参与者应该对项目及其目标和范围有充分的了解,他们应该是自愿同意参与的。如果要收集有关参与者的数据,参与者应该充分了解正在收集的数据以及这些数据将被如何使用(包括第三方),在此基础上决定是否同意收集和使用数据。
在数据伦理中,一个受到极大关注的重要问题是偏见(bias)。《牛津英语词典》将偏见定义为“青睐或歧视一个人或一个群体,尤指以一种被认为不公平的方式。”偏见是人类活动和决策中固有的,人类的偏见在数据科学中反映为数据中的偏见和算法中的偏见。数据中的偏见由算法使用的历史数据中包含的内容引入——例如美国的逮捕记录中,边缘化社区的记录更多,主要是因为这些社区被过度巡查。数据偏见也可能由于数据代表性不足而被引入——例如面部识别系统中使用的数据80%是白人的,其中四分之三是男性。算法偏见还可能由于算法/模型中包含或遗漏的特征而产生。这可能发生在机器学习部署中的特征工程期间。这些特征包括种族、宗教和性别等个人属性。使用代理指标(例如使用标准化考试分数预测学生成功与否)也可能导致偏见。
虽然有相当多的注意力集中在偏见问题上,但我们应该更普遍地将数据伦理与更广泛的伦理定义视为一致。一些更广泛的对伦理问题的考虑与数据保护有重叠的关注点。被编入立法的与伦理相关的实践和社会准则都很重要(下一节将对此进行更多讨论)。因此,有些伦理问题是普适的,而另一些只在特定司法管辖中出现。
更广泛的伦理问题还包括:数据的所有权;数据的透明度,即受试者知道他们的哪些数据被收集了以及这些数据被如何存储和处理(包括受试者的知情同意);个人数据隐私,特别是个人身份资料的披露;数据的使用意图,特别是二次使用。
社会和政策背景
如前所述,数据科学部署对其所处的社会和政策环境高度敏感。例如,不同的司法管辖区所允许的数据使用方式是不同的。社会和政策背景可以是法律层面的,为数据科学部署建立法律规范;也可以是社会层面的,确定什么是社会可接受的。此外,社会科学、人文科学与数据科学的核心问题三者之间存在着重要的交叉点。社会和政策背景也有四个核心问题:所有权、代表性、监管和公共政策。显然,这些问题与之前讨论的数据伦理问题之间也存在重叠。
所有权。数据所有权、访问和使用——特别是在个人数据是如何产生的、谁拥有并可以访问它、谁从中获利等方面——是一个关键问题。在社会和组织层面,研究人员分析了经济系统如何在运营和收入来源方面越来越依赖数据,以及收集和分享越来越多私密数据的压力如何与用户自己对隐私和自主权的要求发生冲突。从技术角度看,数据隐私之前已经讨论过,但显然还需要从法律和社会层面进行仔细的研究。
代表性。发展数据科学技术的一个主要问题是确保数据在其生命周期的所有阶段都具有多样且公平的代表性。这涉及对数据科学中使用的培训、工具和技术进行评估,包括谁设计它们、谁有权使用它们以及它们代表谁。数据表示与边缘化和偏见问题紧密相关,这些问题贯穿于技术的设计、数据收集、分析和实施过程中。另一个问题是,数据在用户不知情的情况下为他们“代言”,这种情况越来越多——这会改变用户个人与当地社区、公司和国家的关系。
监管和问责。符合伦理的数据科学还应具备其所承诺的透明度和可解释性,包括分析数据驱动的决策制定的输入数据和应用算法,以及解释特定输出和建议是如何产生的。确保数据科学进步带来的好处和机会能够平等地惠及更广泛的社会群体,这离不开对数据科学生命周期每个阶段的监管和问责,而不是将问题都留给事后的法律和政策干预,比如欧盟《通用数据保护条例》(GDPR)和加拿大的《个人信息保护和电子文件法》(PIPEDA)。此外,还须将价值观纳入设计,采取干预措施让设计具有更高的可用性和包容性,提供用于在培训、教育和日常实践层面进行道德思考的工具。
公共政策。这个时代迫切需要将数据科学纳入公共政策分析。当下,脸书、推特和Instagram上的每一条帖子都是可以被存档和纳入历史记录的观测数据,可以为公共政策提供信息,而政府在收集、汇总和分析这些数据方面能力不足。使用必要的工具,这些数据本可以用一种可解释的方式进行管理和分析,通过一种有意义的方式传播,以提供关键的见解。同时,有大量的开放数据集未被使用,这形成了一个矛盾现象:一方面存在数据不足的担忧;另一方面,更多的信息资源能够且应被收集和分析以为公共政策的制定提供依据。
数据科学生命周期
前面给出的数据科学定义清楚地表明了数据科学的过程性,即它由几个处理阶段组成,从数据摄取开始,最终得出更好的决策、见解和行动。这个过程被称为数据科学生命周期。现有文献提及数据生命周期时只关注数据的处理。美国国家科学基金会数据科学涌现工作组(The U.S. National Science Foundation Working Group on the Emergence of Data Science)对数据生命周期给出了一个很好的定义,它确定了五个线性阶段:获取数据、清理数据并为分析做准备、通过分析使用数据、发布数据和用于分析数据的方法、根据政策保存/销毁数据。多种数据生命周期模型的变体出现在不同的文章中,有些早于上述定义。
这种生命周期模型及其变体给人的印象是整个过程是线性单向的。实际中的项目开发很难以线性方式进行。在数据挖掘项目的跨行业数据挖掘标准过程(CRISP-DM)模型中,提出了一个具有内置反馈回路、迭代性更强的替代模型。CRISP将数据置于核心地位,并确立了一个可迭代的循环生命周期,这个周期在项目的整个生命周期内可重复进行。PPDAC类似于CRISP-DM,只是它适用于统计分析任务。微软的团队数据科学访问(TDSP)生命周期也强调了过程的迭代性质。
本文提出的数据科学生命周期(见图3)源自并建立在这些迭代模型之上。它从确定某个研究问题开始,这个研究问题可能来自一个特定的应用,也可能是一个探索性问题。很好地理解研究的问题是很重要的,因为它通常会驱动整个数据生命周期。下一步是数据准备,包括确定所需和可用的数据集;从更大的数据集中选择适当的数据集;导入数据;解决数据质量问题,包括数据清理和数据溯源。第三步是数据的妥善存储和管理,包括大数据管理。具体来说,需要对数据进行集成,对采取哪种数据存储结构进行决策以实现高效访问,选择和设计合适的存储结构,必须指定合适的访问接口,并且为元数据管理,特别是对数据来源的管理作出规定。然后打开准备好的和适当存储的数据进行分析,包括选择/开发适当的统计和机器学习模型,执行特征工程以确定最合适的模型参数,以及进行模型验证研究以确定模型的适用性。如果模型验证成功,那么下一步就是部署和传播,这取决于特定项目和应用的不同活动。在某些情况下,数据的分析和处理需要持续进行,因此需要随着时间的推移维护和监视系统。在其他情况下,部署可能涉及对分析结果及其解释的汇编和传播。传播分析结果,有时包括整理好的数据,是这个阶段的一个重要方面。开放数据,即“任何人都可以出于任何目的自由访问、使用、修改和共享数据(最多受保护来源和开放性要求的约束2)”,是传播的重要组成部分。许多国家的政府和私人机构正在采用开放数据原则(Open Data Principles),声明数据不仅应该开放,而且应该完整、准确、原始和及时地发布。这些原则使这些数据对数据科学家、记者和公众非常有价值。当开放数据被有效使用时,数据科学家可以探索和分析公共资源,质疑公共政策,创造新的知识和服务,并为社会、科学或商业计划发现新的价值。
图3 数据科学生命周期
分析阶段出现问题可能会导致数据科学生命周期过程返回到重新确定研究问题(或许是对研究问题的限定不足或过多,导致模型构建不可行),或者如果模型需要更多的数据或者换用不同的数据,而这些数据尚未准备,则返回到数据准备阶段。如前所述,数据科学部署不是“一劳永逸”的。在部署之后,必须进行持续的监测——可能是环境变化、数据变化,或者对研究问题有了更深入的了解,从而导致对研究问题进行修订和改进。因此,这个过程就像一个辩证过程一样循环往复——每当这个过程回到研究问题时,我们就对需要研究的东西有更深的理解。重要的是要认识到生命周期中的各个阶段并不是孤立的;阶段之间的界限是模糊的,在它们的交叉处会出现重要而有趣的问题。
此数据生命周期与数据保护问题之间存在持续的双向交互。同样,伦理问题、社会规范和政策框架也会影响数据生命周期的每个阶段,有时甚至会阻碍特定数据科学研究的启动。
数据科学是跨学科的
谁“拥有”数据科学是值得讨论的话题,主要是在统计学家和计算机科学家之间。这一讨论深入到“谁是数据科学家”的问题,从而决定数据科学的不同教育模式。考虑到数据在这两个学科中的中心地位,这个讨论可能并不令人惊讶。统计学家对数据科学领域的关注由来已久。由于图基(Tukey)很早就将数据分析作为一个重要的主题进行推广,统计学家们强烈地感觉到他们拥有(或者应该拥有)这个主题。在2013年的一篇评论文章中,达维迪安(Davidian)哀叹多个机构数据科学倡议中统计学家的缺席,并质疑:数据科学难道不正是统计学家的工作?她指出,数据科学“被描述为计算机科学、数学、数据可视化、机器学习、分布式数据管理和统计学的混合体”,对这些学科与统计学一起被纳入数据科学中而感到失望。同样,多诺霍(Donoho)对当前大众对数据科学感兴趣表示遗憾,他指出,大多数统计学家将一些新的数据科学项目视为“文化挪用”。
康威(Conway)就数据科学的本质提出了一个著名的论点。他用维恩图描述了数据科学的三个主要领域:黑客技能、数学和统计以及实质性经验。他认为的重要黑客技能是“在命令行操作文本文件、理解矢量化操作、从算法角度思考”的能力。数学和统计知识是指“知道什么是普通最小二乘回归以及如何解释它”,分析数据时需要用到这一级别的数学和统计知识。实质性经验是关于可能来自应用领域或特定研究项目的研究问题。在“谁‘拥有’数据科学”的争论中,康威提出的维恩图描述主要被认为计算机科学在数据科学中不具有核心地位的人所欢迎,因为康威声称黑客技能与计算机科学无关:“然而,这并不需要计算机科学背景——事实上,我遇到的许多最令人印象深刻的黑客从未曾学习过一门计算机科学课程。”
相反,计算机科学观点支持计算中心性。其中一种观点是由厄尔曼(Ullman)倡导的,他也使用维恩图表达观点,并反对康威,因为他认为“有效处理大规模数据的算法和技术是数据科学的中心”。厄尔曼声称数据科学的两大知识基础是计算机科学和领域科学(即应用领域),它们的交集正是数据科学所在。他理所当然地将机器学习视为计算机科学的一部分。同时他也自然地指出,一些机器学习技术用于数据科学,但也有一些用于数据科学之外。他的维恩图显示,数据科学的某些方面需要与机器学习无关的计算机科学技术——如前所述,数据工程属于这一类。笔者觉得其中一些观点可能没有争议。他的观点可能受到质疑的地方在于,在他看来,数学和统计学“并没有真正直接影响领域科学”,尽管它们在计算机科学中很重要。在计算机科学中,对于人工智能/机器学习与数据科学之间关系的讨论,尽管有些人指出数据科学是人工智能的一部分,但这个问题在本文的第一部分中已经得到了解决。
玛丽娜·沃格特(Marina Vogt)3 提出了一个更为平衡的观点,她指出数据科学位于计算机科学、数学和统计学以及领域知识的交叉点。这更符合美国计算机学会(ACM)在其课程建议中提出的观点:“数据科学是计算机科学、数学、统计学和自然科学等应用领域之间的跨学科研究。”然而,这种观点也是极力以STEM为中心的,并且遗漏了许多数据科学领域感兴趣的主题。
这些讨论和由此产生的争议既没有什么帮助也没有必要;它们不会推动数据科学向前发展。没有一个社区“拥有”数据科学——它太大了,面临的挑战也太大了,需要许多学科的参与。创造和利用知识是跨越千年的人类基本活动。这种活动是我们所定义的人类集体文化的核心。试图通过数据科学所有权的归属分裂人类成就的核心,往好了说,是一种狭隘的观点;往坏了说,是受自私和贪婪的驱使。
数据科学应该被视为连接多个领域的统一力量(见图4),其中一些领域属于STEM,而另一些则不是。回到本文关于利益相关者的讨论,它们是多种多样的。所有权争论发生在一个利益相关者群体中——关注基础技术和基本原则的STEM人群。在这个群体中,重要的是要认识到并接受一些群体的兴趣是互补的,有时是重叠的:计算机科学家带来了计算技术/工具的专业知识,可以有效地解决数据规模和异质性问题;统计学家专注于统计建模分析;数学家在离散和连续优化技术和过程的精确建模方面作出了很多贡献。然而,这只是一个利益相关者群体;笔者还发现了另外两个。这种统一观点的一个危险之处在于,无法在包容所有这些领域的贡献和确定数据科学的核心之间找到适当的平衡。笔者相信本文前面的论证已经确立了数据科学的核心,因此可以避免这种危险。
图4 统一的数据科学观
结论
尽管最近很受欢迎,但数据科学领域仍处于起步阶段,需要做很多工作来确定它的范围和定位。早期数据科学应用的成功是显而易见的——从健康科学来看,社交网络分析使追踪流行病成为可能;在金融系统中,投资决策的指导意见来源于对大量数据的分析;在客户服务行业,语音识别技术的进步促使客户服务聊天机器人发展。然而,这些进步只是揭示了数据科学的可能性;数据科学的全部影响尚未实现。数据科学的基本方面和将数据转化为深刻见解的集成流程开发方面仍然需要进行重大改进。当前的发展倾向于孤立数据科学的子领域,并没有像本文讨论的那样考虑整个范围。这种孤立严重阻碍了数据科学的大规模发展,导致数据科学应用整合新基础技术的能力滞后。
本文的目的是为数据科学领域提供一个系统的观点,并强调一些关键要点:要清楚地建立一个一致和包容的观点;必须在保持包容性的同时界定该领域的核心,以避免包罗万象,或在不同情况下被任意解释;对构成数据科学的活动采取整体观点是至关重要的;需要建立一个框架来促进多个学科之间的合作与协作。
脚注:
1 “基于数据的”这个术语也经常用“数据增强的”(data-enhanced)或者“数据使能的”(data-enabled)两个词替代。
2 参见http://opendefinition.org。
3 原文已无法找到,但沃格特的观点可以在这里找到:http://www.policyhub.net/node/212。
作者:
M·塔梅尔·欧苏(M. Tamer Özsu)
加拿大滑铁卢大学Cheriton计算机科学学院教授。tamer.ozsu@uwaterloo.ca
译者:
彭 鹏 CCF专业会员。湖南大学信息科学与工程学院副教授。主要研究方向为分布式图数据库系统。hnu16pp@hnu.edu.cn
苟向阳 CCF专业会员。香港中文大学博士后研究员。主要研究方向为图和图流数据处理算法。xygou@se.cuhk.edu.hk
邹 磊 CCF杰出会员。北京大学教授。主要研究方向为图数据库、知识图谱和基于软硬件协同优化的图计算系统。zoulei@pku.edu.cn
视频
【讲座】M. Tamer Özsu教授:数据科学——一个系统的探讨_哔哩哔哩_bilibili
这篇关于数据科学——一个系统的探讨的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!