隐私保护和带宽有效的联合学习:在医院死亡率预测中的应用-文章翻译

本文主要是介绍隐私保护和带宽有效的联合学习:在医院死亡率预测中的应用-文章翻译,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

隐私保护和带宽有效的联合学习:在医院死亡率预测中的应用

摘要

机器学习,特别是联邦机器学习,在医学研究和患者护理方面开辟了新的视角。尽管联邦机器学习在隐私方面比集中式机器学习有所改进,但它不提供可证明的隐私保证。此外,联邦机器学习在带宽消耗方面相当昂贵,因为它需要参与者节点定期交换大型更新。该文提出了一种带宽高效的隐私保护联邦学习,它提供了基于差异隐私的理论隐私保证。我们使用真实数据集(包含约一百万名患者的电子健康记录)对我们的住院死亡率预测方案进行了实验评估。我们的研究结果表明,强大且可证明的患者级隐私可以强制执行,但代价是预测准确性的中度损失。

1 引入

电子健康记录(EHR)是患者医疗信息的数字版本。EHR数据开辟了新的视角,特别是随着机器学习的发展。EHR数据可用于训练预测模型,以预测患者的医疗状况,并帮助医生开展适当的护理[18,36]。然而,医疗数据被视为敏感信息,如果发生任何泄漏,可能会对患者造成真实和严重的损害。例如,医疗数据可能被保险公司用来调整保险费,被银行用来拒绝贷款,或者被政客用来诋毁对手。因此,这类敏感数据的隐私必须得到保证,并且需要隐私保护预测模型。预测模型通常使用在集中数据集上训练的机器学习算法构建。当一个模型在多个数据集(例如由多家医院收集)上进行训练时,将所有数据集集中在一台服务器上会带来额外的(通常是不可接受的)隐私风险。为了缓解这个问题,联邦学习(FL)被提出作为一种新的学习协议。联合学习包括在提供数据的不同实体上分配学习过程:不是在单个服务器上聚合数据,而是由每个参与实体在本地执行培训,然后共享和聚合模型[27,38]。尽管联邦学习通过设计减轻了隐私风险,但最近的结果表明,一些攻击,如成员身份和属性推断攻击,仍然是可能的[29,33]。此外,完整的训练样本也可以完全从捕获的梯度中重建[43,44]。此外,由于参与的实体必须通过交换它们的模型更新进行协作,因此在培训阶段所需的带宽通常非常大,而且令人望而却步。

贡献。本文提出了一种带宽有效的隐私保护联邦学习方案,该方案提供了理论上的隐私保证。我们的方案保证了即使在高度不平衡的训练数据上也具有实用性的差异隐私。这是一个挑战,因为不平衡的数据增加了差异隐私所需的注入噪声,从而大大降低了模型质量。我们的解决方案依赖于梯度的极端量化,以降低通信成本,以及小批量的下采样,以减少差异隐私所需的噪声。我们使用真实的EHR数据(包含约一百万份患者记录)对我们的院内死亡率预测解决方案的性能进行了实验评估。我们的研究结果表明,患者层面的隐私可以被强制执行,但只会导致预测准确性的中度损失。

概述。我们在第2节中描述了背景。我们将在第3节介绍我们的隐私保护方案。我们在第4节中报告了真实世界数据的实验。最后,在第7节结束之前,我们将在第5节讨论相关工作。

2 背景

2.1联邦学习(FL-STANDARD)

在联邦学习[27,38]中,多方(客户机)在其训练数据的联合上构建了一个通用的机器学习模型,而无需彼此共享。在每轮培训中,一些客户机从参数服务器检索全局模型,根据自己的培训数据更新全局模型,并将更新后的模型发送回服务器。服务器聚合所有客户端的更新模型,以获得一个全局模型,该模型将在下一轮中重新分发给某些选定的方。
在这里插入图片描述

请注意,每个 D k D_k Dk可能由不同的分布(即非iid情况)生成,也就是说,任何客户端的本地数据集可能不能代表总体分布[27]。例如,当不是所有的输出类都在每个客户机的训练数据中表示时,就会发生这种情况。在Alg1中对神经网络的联合学习进行了总结。在后续中,假设每个客户机都使用相同的模型体系结构。
在这里插入图片描述
联合学习的动机有三个方面:首先,它旨在通过只共享模型更新而不是潜在的敏感培训数据来为每个参与者的培训数据提供机密性。其次,为了降低通信成本,客户机可以在将更新发送回服务器之前执行多个本地SGD迭代。第三,在每一轮中,只需要少数客户对通用模型进行本地培训,这进一步降低了沟通成本,使该方法对大量客户特别有吸引力。

然而,之前的一些研究表明,模型更新确实会泄露潜在的敏感信息[29,33]。因此,仅仅不共享训练数据本身不足以保证它们的机密性。

2.2 差分隐私

差分隐私允许一方私下发布关于数据集的信息:输入数据集的函数受到干扰,因此任何能够区分记录与数据集其余部分的信息都是有界的[17]。
在这里插入图片描述
从直观上讲,这就保证了,如果对手有A的输出,对于任何记录,无论它是否包含在A的输入中,都能得出几乎相同的结论(直到ϵ 为止,概率大于1−δ)。也就是说,对于任何一个记录所有者来说,隐私泄露不太可能是因为它参与了数据集。
在这里插入图片描述

高斯机制。有几种方法可以实现DP,包括高斯机制[17]。其中一个基本概念是函数的全局敏感性[17]。
在这里插入图片描述
事实上,高斯机制从一个由随机变量G()描述的多元球面(或各向同性)高斯分布中提取向量值,如果n在给定的上下文中是明确的,则省略n。

3 双向联合学习记录级隐私

3.1 FL-SIGN协议

在第2.1节中介绍的FL-STANDARD方案中,每个选定的客户端将其更新后的模型发送到中央服务器。如前所述,该方案在带宽和隐私方面有几个缺点。我们建议通过量化模型权重来限制这些缺点,如[9,21]所示。更具体地说,在新方案中(本文其余部分称为FL-SIGN),每个客户端只发送其参数更新向量中每个坐标值的符号。服务器取每个坐标的符号总和的符号,并使用固定的常数r(在实践中为10−3的顺序)缩小结果,以限制每个客户端的贡献并调整收敛性。这种缩放的聚合更新被添加到全局模型中。

更具体地说,FL-SIGN(见Alg.3)与标准联邦方案FL-standard(见Alg.1)的区别如下:
在这里插入图片描述
(2)服务器对每个客户端 k 发送的符号向量

这篇关于隐私保护和带宽有效的联合学习:在医院死亡率预测中的应用-文章翻译的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/879728

相关文章

Spring AI集成DeepSeek三步搞定Java智能应用的详细过程

《SpringAI集成DeepSeek三步搞定Java智能应用的详细过程》本文介绍了如何使用SpringAI集成DeepSeek,一个国内顶尖的多模态大模型,SpringAI提供了一套统一的接口,简... 目录DeepSeek 介绍Spring AI 是什么?Spring AI 的主要功能包括1、环境准备2

Spring AI与DeepSeek实战一之快速打造智能对话应用

《SpringAI与DeepSeek实战一之快速打造智能对话应用》本文详细介绍了如何通过SpringAI框架集成DeepSeek大模型,实现普通对话和流式对话功能,步骤包括申请API-KEY、项目搭... 目录一、概述二、申请DeepSeek的API-KEY三、项目搭建3.1. 开发环境要求3.2. mav

MobaXterm远程登录工具功能与应用小结

《MobaXterm远程登录工具功能与应用小结》MobaXterm是一款功能强大的远程终端软件,主要支持SSH登录,拥有多种远程协议,实现跨平台访问,它包括多会话管理、本地命令行执行、图形化界面集成和... 目录1. 远程终端软件概述1.1 远程终端软件的定义与用途1.2 远程终端软件的关键特性2. 支持的

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

查询SQL Server数据库服务器IP地址的多种有效方法

《查询SQLServer数据库服务器IP地址的多种有效方法》作为数据库管理员或开发人员,了解如何查询SQLServer数据库服务器的IP地址是一项重要技能,本文将介绍几种简单而有效的方法,帮助你轻松... 目录使用T-SQL查询方法1:使用系统函数方法2:使用系统视图使用SQL Server Configu

5分钟获取deepseek api并搭建简易问答应用

《5分钟获取deepseekapi并搭建简易问答应用》本文主要介绍了5分钟获取deepseekapi并搭建简易问答应用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需... 目录1、获取api2、获取base_url和chat_model3、配置模型参数方法一:终端中临时将加

JavaScript中的isTrusted属性及其应用场景详解

《JavaScript中的isTrusted属性及其应用场景详解》在现代Web开发中,JavaScript是构建交互式应用的核心语言,随着前端技术的不断发展,开发者需要处理越来越多的复杂场景,例如事件... 目录引言一、问题背景二、isTrusted 属性的来源与作用1. isTrusted 的定义2. 为

Python调用另一个py文件并传递参数常见的方法及其应用场景

《Python调用另一个py文件并传递参数常见的方法及其应用场景》:本文主要介绍在Python中调用另一个py文件并传递参数的几种常见方法,包括使用import语句、exec函数、subproce... 目录前言1. 使用import语句1.1 基本用法1.2 导入特定函数1.3 处理文件路径2. 使用ex

将Python应用部署到生产环境的小技巧分享

《将Python应用部署到生产环境的小技巧分享》文章主要讲述了在将Python应用程序部署到生产环境之前,需要进行的准备工作和最佳实践,包括心态调整、代码审查、测试覆盖率提升、配置文件优化、日志记录完... 目录部署前夜:从开发到生产的心理准备与检查清单环境搭建:打造稳固的应用运行平台自动化流水线:让部署像