本文主要是介绍联邦学习材料整理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
联邦学习调研汇报
- 联邦学习概述
近几年来由于监管部门对于个人隐私的保护日益重视,带火了一个名词,叫做“联邦学习”。联邦学习又名联邦机器学习,联合学习,联盟学习。联邦机器学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。
联邦学习可以分为:纵向联邦学习、横向联邦学习以及联邦迁移学习。
纵向联邦学习适用于两个数据集的用户重叠较多而用户特征重叠较少的情况下,我们把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。
横向联邦学习适用于两个数据集的用户特征重叠较多而用户重叠较少的情况下,我们把数据集按照横向(即用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。
联邦迁移学习适用于两个数据集的用户与用户特征重叠都较少的情况下,我们不对数据进行切分,而可以利用迁移学习来克服数据或标签不足的情况。
不同的合作机构采用不同的联邦学习,最终实现数据不落地,模型更完善。据不完全统计,利用联邦学习之后构建的模型优化指标提升20%--30%。
- 联邦学习的背景以及业务价值
背景的由来:如何在满足数据隐私、安全和监管要求的前提下,设计一个机器学习框架,让人工智能系统能够更加高效、准确的共同使用各自的数据,是当前人工智能发展的一个重要课题。联邦学习的诞生背景就是为解决以上问题的解决思路转向解决数据孤岛,数据实现了无边界,模型就可以获取到更加全面的数据集达到理想效果,联邦学习就在这样的思考下应运而生。
联邦学习具备以下特点:
- 各方数据都保留在本地,不泄露隐私也不违反法规;
- 各个参与者联合数据建立虚拟的共有模型,并且共同获益的体系;
- 在联邦学习的体系下,各个参与者的身份和地位相同;
- 联邦学习的建模效果和将整个数据集放在一处建模的效果相同,或相差不大;
- 迁移学习是在用户或特征不对齐的情况下,也可以在数据间通过交换加密参数达到知识迁移的效果。
业务价值:近几年,国内不少公司投入到联邦学习的研发中,其中最有名的有谷歌和微众银行在16年已经开始联邦学习的研究工作,并且已经进入落地实践阶段。目前,联邦学习已经在一些关键的金融领域取得了进展,比如联合反洗钱建模、联合信贷风控建模、联合权益定价建模、联合客户价值建模等。相较于其他领域,金融领域对数据的管控更为严格,对数据隐私更加重视,因此也是最需要通过技术手段解决数据孤岛问题的领域。信贷风险管理、核保风险评估等都是联邦学习比较适合的金融应用。相对于其他领域,金融应用更着力于对风险的量化。基于联邦学习的风险量化模型,能通过扩展数据维度,显著改善风险量化能力。
- 联邦学习技术实现路线
3.1 传统的模型实现方式
传统的建模方式主要包括公司自研和联合建模,其中公司自研的建模方式有很大的局限性,首先公司构建模型的数据一定是充足的,数据分析和模型构建方面要有专门的研究人员全身心投入,开发的周期比较长,现在这种建模方式在一些专门设立算法研究实验室的公司比较常见。联合建模在中小型企业中比较盛行,该建模的方式主要是弥补数据短板和建模能力互补的问题,这种方式在建模投入的人力和物力相对较少,其中联合建模中数据短板问题主要通过购买供应商的数据来进行解决,这就出现了模型的迭代优化需要源源不断的数据购买来支撑,数据的花费累加起来也是一笔不小的开销。
公司自研流程图:
联合建模流程图:
3.2 联邦学习的模型实现方式
联邦学习主要分为纵向联邦学习、横向联邦学习以及联邦迁移学习。
3.2.1 纵向联邦学习
1)比如说当前有两个不同机构,一家是xx的银行B,另一家是xx的电商A。它们的用户群体很有可能包含该地的大部分居民,因此用户的交集较大。但是,由于银行记录的都是用户的收支行为与信用评级,而电商则保有用户的浏览与购买历史,因此它们的用户特征交集较小。
纵向联邦学习就是将这些不同特征在加密的状态下加以聚合,以增强模型能力的联邦学习。
“纵向联邦学习”算法就是是迁移学习的“逐步回归”,用回归来实现数据在两个机构间的互相交换,达到训练模型的目的,实现该方式主要分为三步:
- 将A电商和B银行自有的数据集按照样本对齐。因为带有缺失值的样本是不能参与模型构建的。因此第6个样本是需要删除的;
- 基于B银行数据用逐步回归的思路进行建模。因为B银行有标签和部分特征。做法就是用“是否逾期”作为标签,与“历史逾期次数”、“信用卡开户数”分别做逻辑回归,选择信息含量最高(比如残差平方和最小、AIC或BIC最小等)。如果第一轮选择了“信用卡开户数”这个特征,那就用该变量与标签建立模型,得到该模型预测的残差。其中第6个观测是不参与运算的。如下如所示;
- 将B银行的残差这一列传到A电商。这列残差就相当于标签,与“性别”、“月均消费”、“目前积分数量”逐依建模。同样选取信息含量最高的变量纳入模型。假设此次选取的变量是“月均消费”,那以该变量入模,再次计算残差,传递给B银行。然后在上一次建模中没有被选择的特征中重复第2步。如此往复,直到新纳入的特征提供的信息增益微乎其微,不能满足纳入模型的阈值,模型学习结束。
3.2.2 横向联邦学习
业务相同但是分布在不同地区的两家银行A和B,它们的用户群体分别来自各自所在的地区,相互的交集很小。但是它们的业务很相似,因此记录的用户特征是相同的。此时,就可以使用横向联邦学习来构建联合模型。
用A行数据建模就够了。A行中是否逾期作为两个圆心,拿特征来“画圈圈”,就是下面示例的样子。计算出圆心的坐标之后,把坐标值给到B行就可以了。B行客户不是有特征没标签吗?根据每个样本距离两个圆心距离,分配所属的类别就可以了。
3.2.3 迁移联邦学习
有两个不同机构,一家是位于中国的银行,另一家是位于美国的电商。由于受到地域限制,这两家机构的用户群体交集很小。同时,由于机构类型的不同,二者的数据特征也只有小部分重合。在这种情况下,要想进行有效的联邦学习,就必须引入迁移学习,来解决单边数据规模小和标签样本少的问题,从而提升模型的效果。
A和B处于同一样本维度、不同特征维度时,我们可以用联邦学习;当A和B处于同一特征维度、不同样本维度时,我们就可以用迁移学习;二者的结合点则是:不同样本、不同特征维度。
- 联邦学习应用场景
4.1 小微企业信贷风控
微众要给一些小微企业贷款,又不知道小微企业的情况,第一个可以问询的是央行征信,比方说他过去在某个银行贷过款,信用度如何,但这种数据,它的样本往往是非常少的,所以只是去找央行的数据远远不够。
微众银行希望用到的数据是多方面的,比如工商、税务、舆情,还有各种资产的数据。但是这些数据拥有方,往往都是政府的不同部门、不同的企业。有专门的公司去帮助这些小微企业建立电子化的发票,有从专门的业务角度观察,微众银行只有用联邦学习才能说服他们来参与,否则他们担心核心资产会被泄露。
4.2 保险联邦建模
保险其实就是风险,风险和数据是分不开的,数据越多,风险越低,因此保险公司在某些程度上也想合作,因为不同的保险公司有不同的数据。有的保险公司是专门为保险公司保险的,叫做再保险公司,比方说瑞士再保险公司,是世界上最大的再保险公司,有100多年的历史,这些公司在过去因为数据割裂,没有办法合作的。现在就在用联邦学习,而且取得了非常好的效果。
4.3 计算机视觉
微众银行有不同的摄像头,每个摄像头都覆盖一个区域,这个地方的数据是公司的核心资产,不愿意和别的公司去分享,但是又希望利用到别的公司的数据,来增高自己的准确度,这个时候就可以用到联邦学习,叫视觉联邦,已经落地实施。每天深圳的建筑工地用来探测危险,影响施工的一些现象,比方说明火抽烟和不戴安全帽的现象。
五、联邦学习中的疑问
(1)联邦学习中的加密和解密的方式;
(2)联邦学习中的第三方协作者的作用和职责;
(3)联邦学习的多方机构训练当中出现其中一方中断合作,后续应该工作怎么安排?
(4)模型构建完成之后,模型所需的其他的数据来源应该怎么合作?
(5)联邦学习中的最终版的模型所有权的划分。
这篇关于联邦学习材料整理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!