独家 | 微软与哈佛大学定量社会科学研究所合作开发开放数据差异隐私平台,开启研究新征程(附链接)...

本文主要是介绍独家 | 微软与哈佛大学定量社会科学研究所合作开发开放数据差异隐私平台,开启研究新征程(附链接)...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:John Kahan - Chief Data Analytics Officer

翻译:吴金笛

校对:和中华

本文约2400字,建议阅读5分钟

本文介绍了一个基于差异隐私技术的数据分享平台。

我们生活在一个充斥着数据的世界,我们每天都在创造越来越多的数据。然而,数据通常包含敏感的个人信息,这些信息可以通过允许重新标识数据所有者的方式对其进行操作。因此,我们需要找到一种方法来分析数据,以释放其全部潜力,同时又不为数据所有者的隐私带来风险。最近人工智能和数据科学的进步使这成为可能,这就是为什么我很高兴宣布,微软与哈佛大学的Gary King,Weatherhead大学的教授、哈佛大学定量社会科学研究所的创始人兼领导者,合作构建一个平台来使用差异隐私以保证数据的私密性,同时使跨部门的研究人员包括学术界、政府和私营部门获得新的可以迅速提高人类知识的见解。

“我们很高兴能与微软合作这个重要的项目。我们的目标不是平衡个人隐私和公众利益,而是消除冲突,实现两者。” Gary King说。

差异隐私,是一项对大型数据集的隐私保护分析而量身定制的技术,于2006年发明,由微软研究员杰出的科学家 Cynthia Dwork和哈佛大学计算机科学教授Gordon McKay带头的,与Kobbi Nissim、Frank McSherry和Adam Smith合作,进行了为期四年的研究。差异隐私使研究人员和分析人员能够从包含个人信息的数据集中提取对公共利益有用的见解,同时提供当今最强大的隐私保护。

这种看似矛盾的结果是通过在计算中引入相对较小的误差或统计噪声来实现的。这些误差大到足以保护隐私,但又小到提供给分析师和研究人员的答案仍然有用。我们的目标是建立一个差异化的隐私平台以提供一个更通用的解决方案,最终可能会有广泛的研究人员和公司对此做出贡献。

“差异隐私体现了对基础研究进行投资的回报,也展示了理论计算机科学作为社会变革工具的巨大潜力。创建一个具有工业实力、公众可用的平台将促进实践和艺术发展” 。Cynthia Dwork说。

以前,研究人员依靠去识别等技术,这是一种在更大的数据集中剥离敏感数据的过程。不幸的是,这种方法不安全,并且很容易被通过重复和复杂的查询以及将其与其他数据结合使用的方法而破坏。

差异隐私背后的数学是复杂的,但如果你想了解更多信息,我建议阅读Cynthia Dwork一篇简短的论文,即隐私数据分析的一个坚实的基础(https://www.microsoft.com/en-us/research/publication/a-firm-foundation-for-private-data-analysis/),它专为广泛的技术受众编写,和另一篇论文,即差异隐私:非技术受众入门(https://dash.harvard.edu/handle/1/38323292),由哈佛大学计算机科学和应用数学教授Salil Vadhan和Vicky Joseph共同编写,他们也将与我们在这个项目上合作。

这些论文很好地总结了差异隐私给那些想要分析敏感数据的人带来的好处:

  • 差异隐私本质上是保护个人信息,就像在分析中没有用到她的信息一样。

  • 差异隐私本质上保证了使用个人数据不会泄露任何特定于她的个人身份信息。在此,特定指的是除非在分析中使用的信息,否则无法被推断出的信息。

  • 差异隐私本质上掩盖了任何个人的贡献,使得无法推断任何特定于个人的信息,包括个人的信息是否被使用。

在微软方面,我们的平台的开发是由Azure AI团队领导, 由微软 AI平台的副总裁Eric Boyd带领, 他说:“这种合作汇集了微软巨大的工程资源和Azure AI以及一些最有才华的数据科学家,工程师和科学家来开发一种数据共享工具,这将从根本上改变我们做研究的方式。我们正在研究来自政府、医疗保健、学术和商业部门的实际情况,这些情况将展示差异隐私如何提供最强大的可能的隐私保护,我们很高兴看到更深层次的见解和新的解决方案。”

一但构建了基本架构并实施治理,我们将向全世界的开发人员、研究人员和公司开放平台和算法,让他们在未来参与构建和支持该平台。我们认为,这种开放的方法对成功至关重要,因为它保证了透明性,使所有人都能信任产出。

我们的项目还建立在微软的同态加密和机密计算的工作之上,这些工作旨在提高云计算的安全性。当将同态加密与差异隐私相结合以确保数据安全时,用户将能够释放其数据的全部潜力,并确信其数据将保持安全和在他们的控制之下。

一旦该平台可用,研究人员将能够使用它使他们自己的数据集可供世界各地的其他研究人员使用。因此,我们可以将各种各样的、以前没有联系的甚至不相关的数据集组合成可以被人工智能分析的海量数据集,这将进一步释放数据的力量。也许更重要的是,由此产生的见解将开辟新的研究途径,使我们能够为人类面临的一些最紧迫的问题开发新的解决方案。

目标是使用我们的集体创新和取得的突破为每一个人服务:对抗癌症和其他疾病,设计工具来帮助有学习障碍者,帮助难民找到生活的地方,以及保护我们的地球不受气候变化的危害,同时保护为我们提供数据的数据所有者的隐私。

该项目也将是Cascadia数据发现计划的一个关键组成部分,该计划旨在建立一个强大的健康数据生态系统,重点是在西北地区开展协作、数据共享和数据驱动的癌症研究。下周我将参加Cascadia创新会议,届时我们将讨论我们在差异隐私方面的工作,以及它如何推进我们的合作伙伴Fred Hutchinson癌症研究中心和其他CDDI合作伙伴正在开展的工作。

我们将在今年秋天宣布如何让更多开发人员和研究人员参与我们的细节。

原文标题:

Microsoft and Harvard’s Institute for Quantitative Social Science Collaboration Develops Open Data Differential Privacy Platform, Opens New Research

原文链接:

https://www.linkedin.com/pulse/microsoft-harvards-institute-quantitative-social-science-john-kahan/?trackingId=f0rsxujTTHapEOmCYHSdfw%3D%3D

编辑:王菁

校对:林亦霖

译者简介

吴金笛,雪城大学计算机科学硕士一年级在读。迎难而上是我最舒服的状态,动心忍性,曾益我所不能。我的目标是做个早睡早起的Cool Girl。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,数据派THU产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

点击“阅读原文”拥抱组织

这篇关于独家 | 微软与哈佛大学定量社会科学研究所合作开发开放数据差异隐私平台,开启研究新征程(附链接)...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901449

相关文章

Rust中的BoxT之堆上的数据与递归类型详解

《Rust中的BoxT之堆上的数据与递归类型详解》本文介绍了Rust中的BoxT类型,包括其在堆与栈之间的内存分配,性能优势,以及如何利用BoxT来实现递归类型和处理大小未知类型,通过BoxT,Rus... 目录1. Box<T> 的基础知识1.1 堆与栈的分工1.2 性能优势2.1 递归类型的问题2.2

Python使用Pandas对比两列数据取最大值的五种方法

《Python使用Pandas对比两列数据取最大值的五种方法》本文主要介绍使用Pandas对比两列数据取最大值的五种方法,包括使用max方法、apply方法结合lambda函数、函数、clip方法、w... 目录引言一、使用max方法二、使用apply方法结合lambda函数三、使用np.maximum函数

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

使用Python快速实现链接转word文档

《使用Python快速实现链接转word文档》这篇文章主要为大家详细介绍了如何使用Python快速实现链接转word文档功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 演示代码展示from newspaper import Articlefrom docx import

使用Navicat工具比对两个数据库所有表结构的差异案例详解

《使用Navicat工具比对两个数据库所有表结构的差异案例详解》:本文主要介绍如何使用Navicat工具对比两个数据库test_old和test_new,并生成相应的DDLSQL语句,以便将te... 目录概要案例一、如图两个数据库test_old和test_new进行比较:二、开始比较总结概要公司存在多

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

Python给Excel写入数据的四种方法小结

《Python给Excel写入数据的四种方法小结》本文主要介绍了Python给Excel写入数据的四种方法小结,包含openpyxl库、xlsxwriter库、pandas库和win32com库,具有... 目录1. 使用 openpyxl 库2. 使用 xlsxwriter 库3. 使用 pandas 库

SpringBoot定制JSON响应数据的实现

《SpringBoot定制JSON响应数据的实现》本文主要介绍了SpringBoot定制JSON响应数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录前言一、如何使用@jsonView这个注解?二、应用场景三、实战案例注解方式编程方式总结 前言