让数据不再“裸奔”,隐私计算“四小龙”亮出通关密码

2023-12-24 08:18

本文主要是介绍让数据不再“裸奔”,隐私计算“四小龙”亮出通关密码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文|魏启扬

来源|智能相对论(aixdlun)

当数据成为重要的生产要素,数据隐私保护与数据使用应该如何权衡?

今年4月,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》(以下简称“《意见》”)发布,数据作为一种新型生产要素被写入国家文件中,与土地、劳动力、资本、技术等传统要素并列为要素之一。

《意见》明确,加快培育数据要素市场,推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护。

数据的价值正在被重新认识,那么数据的安全该如何守护呢?

数据要素时代来临,隐私计算迎来爆发节点

其实,早在去年10月—11月,国家发改委先后授牌雄安、浙江、福建、广东、重庆、四川在内的六个地区为“数字经济创新发展试验区”,探索数字经济与各行业的融合发展。

更早的时间,以微信、短视频、直播等为代表的互联网应用改变了我们的生活;以淘宝、京东、拼多多为代表的电商平台改变了我们的消费方式;以李佳琦、薇娅为代表的带货主播创新了新型商业业态;以5G、工业互联网为代表的“新基建”力量正在带动生产力的变革……

这一切的背后都是数据要素作为支撑。

Statista数据显示,预计2020年,全球大数据市场的收入规模将达到560亿美元,较2018年的预期水平将增长约33.33%,较2016年的市场收入规模翻一倍。全球数据量在2019年达到了41ZB,2020年预估达到50.5ZB。

微信图片_20200910161627.png

全球大数据市场数据量和市场收入规模(数据来源:中国信息通信研究院,CB Insights China整理)

数据价值另一面,数据安全、隐私保护成为与之对立的矛盾。

比如很多政府数据不能对外公布,通讯运营商、银行、互联网公司等收集到的客户数据受法律规定,也不能透露给第三者,因此数据被分割在一个个孤岛之中,数据之间无法互通,数据价值难以体现。

然而即便如此,我们几乎每天都会接到各种营销电话,或推销房产、或推荐股票,在各种黑产面前,没有个人隐私可言,每年各行业曝出的数据、隐私泄露事件也层出不穷,公众对数据价值产生的过程产生了极大的不信任。

微信图片_20200910161621.jpg

2019年世界最大十起数据泄露事件(CB Insights China整理)

数据由于具备可复制和可传播性,其本质上是不能被安全共享的,但在数据要素时代,我们虽然不共享数据本身,但数据价值应该被共享。

为解决这个矛盾,隐私计算技术出现了。

隐私计算,根据中国信息通信研究院的定义,是指在保证数据提供方不泄露敏感数据的前提下,对数据进行分析计算并能验证计算结果的信息技术。

广义上是指面向隐私保护的计算系统与技术,涵盖数据的产生、存储、计算、应用、销毁等信息流程全过程,想要达成的效果是使数据在各个环节中“可用不可见”。

说的更通俗一些,就是在保证数据安全的前提下,让数据可以自由流通或共享,消除数据孤岛问题,从而释放数据更大的价值,提升生产效率,进而推进产业创新。

从这一点来理解,大数据市场规模有多大,隐私计算的天花板就有多高。

为数据价值而生,隐私计算四小龙浮出水面

隐私计算是一门综合技术,具体来说,目前主要包括三个方向。

其一为基于密码学的多方安全计算(MPC)技术。通过秘密分享、遗忘传输、混淆电路或同态加密等特殊的加密算法和协议,从而支持在加密数据上直接进行计算。理论上,在不考虑代价的“理想”情况下,多方安全计算技术能实现任意的计算“功能”,并且达到比较高的安全性。但是由于数据通信量骤增,计算效率损失大和需要极高的算力要求等因素,MPC的技术产品化还有一定的限制,相关的技术解决方正在积极探索。

其二为基于人工智能的联邦学习技术。在横向维度,每个参与者在本地训练计算自己的样本,只分享模型训练的梯度;纵向维度,各参与者训练各自的embedding(“向量映射”),共同训练上层模型。两个维度的融合,从而让多个相互不信任的数据拥有方不必共享数据的基础上联合进行模型训练。

其三为基于可信硬件的安全沙箱计算(TEE)技术。其核心思想是构建一个硬件安全区域,数据仅在该安全区域内进行计算,利用可信任执行环境TEE防止操作系统恶意地查看应用执行环境的内容;利用安全沙箱防止恶意应用通过特殊调用控制操作系统。

目前业界的普遍共识是,要实现数据“可用不可见”,单一技术难以独挑大梁,不同技术路径(密码学、人工智能、区块链等)的互补融合才是发展趋势。

也正是在这样的背景下,蚂蚁金服、微众银行、华控清交、翼方健数这4个隐私计算玩家在一众竞争者中跑了出来,凭借着各有所长的综合解决方案成为隐私计算赛道的“四小龙”。

比如蚂蚁金服用来做数据安全与隐私保护的TED ENGINE引擎,就融合了敏感数据智能打标技术(Tag)、AI安全增强技术(Enhace)和智能威胁识别技术(Detection)三项技术。在Enhace技术中,蚂蚁金服又以差分隐私和可信硬件为重点开发方向。

此外,蚂蚁金服还开发了一个大规模多方安全计算商用平台——摩斯Morse,直接向其他企业机构提供个性化的多方安全计算服务,解决业务实际的问题。

微众银行在融合密码算法、隐私保护算法、安全多方计算等技术的基础上,开发了一套即时可用的场景式隐私保护解决方案WeDPR。今年的杭州区块链国际周上,WeDPR被评为“隐私计算场景应用最具实力派”。

另外值得一提的是,微众银行的联盟学习开源项目Fate还拥有联邦学习的自主知识产权。

华控清交专攻多方安全计算,创始人姚期智为清华大学交叉信息研究院院长,也是图灵奖唯一的华人获奖者。多方安全计算的技术理论源于姚期智在1980年代提出的「百万富翁」设想,作为该理论的提出者和重要奠基人,致力于推动技术落地。其PrivPy平台实现了高性能通用的安全计算框架、集群化和可扩展的解决方案。

翼方健数的数据隐私计算平台翼数坊则以“数据和计算的互联网”(IoDC)为核心,建设开放生态,并在厦门落地了全国首个大规模部署的隐私计算平台,实现数据战略从顶层设计到底层实现的“落地”。在平台中不光融合了自研技术,还集成了第三方优秀的技术方案,其中包括同态加密、区块链、联邦学习等,通过计算实现数据的打通、共享和价值实现。

另外一个层面,从隐私计算应用的落地行业来看,金融和医疗是两个最主要的赛道。

数据安全对于金融行业的重要性我们很好理解,往小了说,关系到我们每个人的钱袋子,往大了说,关系到国家的经济基础,因而我们可以看到,隐私计算“四小龙”中,蚂蚁金服、微众银行和华控清交的基本盘都在金融赛道中。

数据安全对于医疗行业同样重要,清华大学软件学院副教授金涛在2019大数据产业峰会上接受媒体采访时曾表示,健康医疗数据不仅涉及到个人层面,也涉及到公共利益,甚至是国家安全。比如,一个人患上流行病、传染病,其个人数据可能涉及整个治疗方案的优化改进,对整个社会大众都有福祉;基因数据则可能关乎国家安全。

翼方健数则走了与其他三家不同的路线,将业务重心放在对隐私计算同样有较大需求的医疗赛道中。

这样一来就很好理解了,既有高人一筹的技术作为支撑底座,又在主要赛道中实现了抢跑占位,以上构成了隐私计算“四小龙”在市场竞争中的护城河。

带来全面的数据价值,隐私计算还需做好三件事情

虽然目前隐私计算行业呈现出“四超多强”的竞争格局,但数据价值还没有被完全挖掘出来,隐私计算技术也还远远没有走到尽头,未来的数据要素时代,寻找全面的数据价值,隐私计算还需做好三件事情。

1、业务落地:更多行业应用,保证数据泛化应用“鲁棒性”

隐私计算目前主要在金融、医疗和营销三个场景落地,在未来肯定还会渗透到更多行业和场景,这就要求技术要具备非常强的“鲁棒性”,换了个环境之后,系统/技术还具体和之前环境里一样的能力。

打个比方,一个开放的隐私计算平台,在某个金融机构可以很好的满足需求,换到另外一个金融机构后,同样能够快速调整,满足该机构的个性需求;范围再扩大一些,该隐私计算平台切换到医疗行业中,也能很好的运行,具有全面的能力。

事实上,隐私计算“四小龙”虽然在金融和医疗两个行业重点布局,但他们还持续向其他行业渗透。以医疗为切入点的翼方健数在金融、营销、保险、政务等行业场景均有布局,跨行业泛数据应用的最大意义在于打破了数据孤岛,让数据价值得到最大程度释放。

2、成果转化:更大范围覆盖,数据应用从单一企业到整个城市

目前数据流通基本都是单个企业内部“自产自销”,通过搭建数据平台,对数据安全进行保障,但数据价值却难以输出,当数据孤岛被消除之后,数据价值应该在无限空间中流通,即从单一企业到所有行业、整个城市的跨越。

城市级的落地,翼方健数有个可以借鉴的案例,他们在厦门构建了基于隐私计算技术的医疗大数据应用与开放平台,是目前所知首个利用隐私计算技术实现城市级应用的案例。

更为关键的是,由于同一个机构可在平台上可以担任多个角色,比如政府机关、医疗企业等能够提供大量原始数据,同时对于医疗数据又有需求,数据价值完成了重塑。翼方健数在厦门的科研转化在一定程度上也成为医疗数据流通产生价值的转折点。

3、战略高度:更加开放的生态,在打法思维上实现升级跨越

现在隐私计算所说的业务,更多是针对企业的解决方案,数据价值单一,大家都知道要让数据流通起来,但如何流通,并没有明确的方向。

在这里互联网行业常说的生态打法或许可以成为一个思路,无论什么东西的流通都需要在一个成熟的生态体系内,参与生态的各方都能从中有所获益才能让流通更有效率,数据流通当然也不会偏离这一规则。

上文提到的翼方健数正在建立的“数据和计算互联网(IoDC)”,就其打法思维上来看,就颇具隐私计算生态的雏形,其下要建立三个生态:数据互联互通的生态、数据和人工智能算法互联互通的生态、数据提供方,数据使用者和数据服务方共存的生态。

根据翼方健数创始人、CEO罗震此前在演讲中披露的信息显示,目前翼方健数在数据生态方面已经联合了微众银行、华控清交等垂直领域的伙伴共同参与IoDC网络的构建。

如是看来,开始有企业对数据生态进行深度思考和探索,并没有将数据价值单独拽在手中,而是以生态开放的方式,让每个生态参与者都能从中获取收益。

众人拾柴火焰高。

开放生态的打法不管是在技术研发层面,还是在市场开拓层面都更具战斗力,在可以预见的未来也将成为隐私计算行业的主流。

深挖智能这口井,同好添加vx:zhinengxiaoyan

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

智能相对论(微信ID:aixdlun):

•AI产业新媒体;

•今日头条青云计划获奖者TOP10;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

这篇关于让数据不再“裸奔”,隐私计算“四小龙”亮出通关密码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/531144

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

【测试】输入正确用户名和密码,点击登录没有响应的可能性原因

目录 一、前端问题 1. 界面交互问题 2. 输入数据校验问题 二、网络问题 1. 网络连接中断 2. 代理设置问题 三、后端问题 1. 服务器故障 2. 数据库问题 3. 权限问题: 四、其他问题 1. 缓存问题 2. 第三方服务问题 3. 配置问题 一、前端问题 1. 界面交互问题 登录按钮的点击事件未正确绑定,导致点击后无法触发登录操作。 页面可能存在

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X

poj 1113 凸包+简单几何计算

题意: 给N个平面上的点,现在要在离点外L米处建城墙,使得城墙把所有点都包含进去且城墙的长度最短。 解析: 韬哥出的某次训练赛上A出的第一道计算几何,算是大水题吧。 用convexhull算法把凸包求出来,然后加加减减就A了。 计算见下图: 好久没玩画图了啊好开心。 代码: #include <iostream>#include <cstdio>#inclu