阅读记录【arXiv2020】 Adaptive Personalized Federated Learning

本文主要是介绍阅读记录【arXiv2020】 Adaptive Personalized Federated Learning,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Adaptive Personalized Federated Learning

论文地址: https://arxiv.org/abs/2003.13461

摘要

对联邦学习算法个性化程度的研究表明,只有最大化全局模型的性能才会限制局部模型的个性化能力。在本文中,我们提倡自适应个性化联合学习(APFL)算法,其中每个客户端将训练其本地模型,同时为全局模型做出贡献。我们推导出局部模型和全局模型混合的泛化界限,并找到最佳混合参数。我们还提出了一种有效通信的优化方法来协作学习个性化模型并分析其在平滑强凸和非凸设置中的收敛性。大量的实验证明了我们的个性化模式的有效性,以及已建立的泛化理论的正确性。

adaptive personalized federated learning (APFL)

1. Introduction

仅针对全局模型的准确性进行优化会导致本地客户的泛化能力较差。
根据这些观察结果,为了平衡与其他用户协作的好处和不同用户域之间统计异质性的缺点之间的权衡,本文提出了一种自适应个性化联邦学习(APFL)算法旨在为每个用户学习个性化模型,该模型是最佳局部模型和全局模型的混合。我们从理论上分析了个性化模型对局部分布的泛化能力,依赖于混合参数、局部和全局分布之间的差异以及局部和全局训练数据的数量。为了学习个性化模型,我们提出了一种有效通信的优化算法,该算法在学习过程中利用局部模型和全局模型之间的相关性来自适应地学习模型。如图 1 所示,通过逐步增加多样性,与 FedAvg 和 SCAFFOLD 学习的全局模型相比,所提出的算法找到的个性化模型表现出更好的泛化能力。我们用广泛证实的实验结果补充了我们的理论发现,这些实验结果证明了所提出的个性化模式相对于常用 FO 算法的全局和局部模型的优越性。

federated optimization(FO)

Organization

  • Section 2. relatework
  • Section 3. introduce the APFL & its generalization guarantees
  • Section 4. communication-effcient optimization problem
  • Section 5. convergence rate
  • Section 6. experimental
  • Section 7 & 8. discussion & future work

2. Relate work

联邦学习个性化方法主要分为三类: local fine-tuning. multi-task learning, contextualization

  • local fine-tuning: 每个客户端接收一个全局模型,并使用自己的局部收据和几个梯度下降步骤进行调整。(元学习、域适应、迁移学习)。
  • multi-task learning: 每个客户端的优化可以被视为一个新任务,或者根据某些特征对客户端聚类,将其作为相似任务
  • contextualization: 针对一个客户的不同环境设置个性化模型
  • personalization via model regularization: 模型正则化,通过规范全局模型和局部模型之间的差异来引入不同的个性化方法。(个性化的知识蒸馏)
  • personalization via model interpolation:模型插值

“什么程度的个性化最适合每个客户?” 本文自适应地调整每个客户端地个性化程度来回答这个问题。

PFL personalized fedrated learning

每个客户端都可以访问自己的数据分布Di,对于任何假设h,损失函数定义为l,局部分布的真实风险由 L D i ( h ) = E ( x , y ) ∼ D i [ l ( h ( x ) , y ) ] L_{D_i}(h)=E_{(x,y)\sim D_i}[l(h(x),y)] LDi(h)=E(x,y)Di[l(h(x),y)] 表示。由 L ^ D i ( h ) \hat L_{D_i}(h) L^Di(h)来表示h在分布D_i上的经验风险,用均值 D ˉ \bar{D} Dˉ 表示客户端的平均分布。
与联邦学习相同,全局模型通过训练以最小化相对于分布 D ˉ \bar{D} Dˉ 的经验损失,即 min ⁡ h ∈ H L ^ D ˉ ( h ) \min_{h \in \mathcal{H}} \hat{\mathcal{L}}_{\bar{D}}(h) minhHL^Dˉ(h)

3.1 Personalized model

具有自适应权重的局部模型与全局模型相混合的联合预测模型——个性化模型。
对于全局模型,目标仍然是最小化经验风险。

h ˉ ⋆ = arg ⁡ min ⁡ h ∈ H L ^ D ˉ ( h ) \bar{h}^\star =\arg\min_{h \in \mathcal{H}} \hat{\mathcal{L}}_{\bar{D}}(h) hˉ=arghHminL^Dˉ(h)

对于每个用户的本地模型,则是通过权重 α i \alpha_i αi聚合部分本地模型和部分全局模型,则本地模型的目标为

h ˉ l o c , i ⋆ = arg ⁡ min ⁡ h ∈ H L ^ D ˉ ( α i h + ( 1 − α i ) h ˉ ⋆ ) \bar{h}^\star_{loc,i} =\arg\min_{h \in \mathcal{H}} \hat{\mathcal{L}}_{\bar{D}}(\alpha_i h+(1-\alpha_i)\bar{h}^\star) hˉloc,i=arghHminL^Dˉ(αih+(1αi)hˉ)

最后,第i个个性化模型是 h ˉ ⋆ \bar{h}^\star hˉ h ˉ l o c , i ⋆ \bar{h}^\star_{loc,i} hˉloc,i的凸组合。

h α i = α i h ˉ l o c , i ⋆ + ( 1 − α i ) h ˉ ⋆ h_{\alpha_i}=\alpha_i \bar{h}^\star_{loc,i}+(1-\alpha_i)\bar{h}^\star hαi=αihˉloc,i+(1αi)hˉ

h α i h_{\alpha_i} hαi不一定是经验风险的最小化,因为是在部分合并全局模型的情况下优化了 h ˉ l o c , i ⋆ \bar{h}^\star_{loc,i} hˉloc,i 。大多数情况下,如果在从D_i中提取的训练集上进行评估, h α i h_{\alpha_i} hαi将会产生residual risk

3.2 Generalization guarantees

二分类问题考虑squared hinge loss ‘ ( h ( x ) , y ) = ( m a x 0 , 1 − y h ( x ) ) 2 `(h(x), y) = (max{0, 1 − yh(x)})2 (h(x),y)=(max0,1yh(x))2

回归问题考虑 MSE loss ‘ ( h ( x ) , y ) = ( h ( x ) − y ) 2 `(h(x), y) = (h(x) − y)2 (h(x),y)=(h(x)y)2

定义1. 一对模型间最坏情况的分歧量化。该度量通过计算样本训练集上两个假设之间的最大分歧来衡量假设类的复杂性。(一种全局模型和局部模型泛化误差间的权衡)

在这里插入图片描述

定理1. 前文所提个性化方法的主要结果,由VC维来衡量。的数据量)。会导致全局模型有更好的泛化性,

在这里插入图片描述

泛化风险主要取决于下面三种

  • m(D中提取的数据量):相对于个人用户数量较大,全局模型通常由更好的泛化性。
  • D与D_i间的散度:平均分布与第i个分布的数据异质性,差异过大会导致全局模型损害局部泛化。
  • m_i(D_i提取的数据量):mi一般较小,局部模型的泛化可能很差。

因此应该选一个小的权重 α i \alpha_i αi来包含更多比例的全局模型。

最优最小参数
在这里插入图片描述

RHS (Right-Hand Side),右侧

4 Optimization Method

自动更新权重的自适应算法:将原本的模型分为两阶段优化问题,全局更新共享模型,本地更新用户本地模型。每个本地客户端要解决的问题为:

min ⁡ v ∈ R d f i ( α i v + ( 1 − α i ) w ⋆ ) \min_{\mathcal{v}\in R^d}f_i(\alpha_i v+(1-\alpha_i)w^\star) vRdminfi(αiv+(1αi)w)

其中 w ⋆ = arg ⁡ min ⁡ w F ( w ) w^\star=\arg\min_w F(w) w=argminwF(w) 为全局最优模型。这两个模型间的平衡由 α i \alpha_i αi 控制。

4.1 Local Descent APFL

双层优化算法Local Descent APFL。服务器随机选择一定的K个客户端作为一组U,每个选定的客户端维护三个模型:全局模型w,自己持有的本地模型v,和混合个性化模型v=alphav+(1-alpha)w,选定的客户端在本地对自己的数据更新w和v两个参数

在这里插入图片描述

在本地进行 τ \tau τ轮更新狗后,将各自本地的w发送到服务器,通过均值聚合。

4.2 Adaptive α \alpha α update

在这里插入图片描述
在这里插入图片描述

注意到 α \alpha α的值与个性化版本和本地版本全局模型的差异及设备内个性化模型的梯度间相关性进行更新的。这表明,当全局模型偏离个性化模型时,α值会发生变化,以调整全局模型捕获的所有设备之间的本地数据和共享知识之间的平衡。显然,当个性化模型和全局模型非常接近时(IID 数据),α 值不会发生太大变化。

5 Convergence Analysis

本节对固定 α \alpha α的APFL在强凸和非凸函数上的收敛性进行分析。

定义2:(梯度多样性) 参数化不变量,parameterization-invariant quantities
在这里插入图片描述

定义3:(本地-全局最优性差距)针对强凸,需要以下反应异质性的量
在这里插入图片描述

v和w取决于客户端之间本地数据的分布和loss的几何形状。

假设

在这里插入图片描述

5.1 强凸损失函数

假设

在这里插入图片描述

定理2:(局部下降 APFL 的全局模型收敛)

在这里插入图片描述

定理3:(Local Descent APFL 的个性化模型收敛)
在这里插入图片描述

推论1

在这里插入图片描述

定理4:(局部下降 APFL 的个性化模型收敛,无需假设 αi)
在这里插入图片描述

5.2 非凸损失函数

定义4:(梯度差异)
在这里插入图片描述

6 Experiments

6.1 Setup

  • 基本情况:Azure、PyTorch(with ‘distributed’)、F64s虚拟机、每个节点64个vCPU
  • Datasets:
    • MNIST:每个客户端2类,每个客户端4类,iid
    • CIFAR10:每个客户端2类
    • EMNIST
  • else(除非特殊说明):learning rate 每 iteration 降低1.本地更新10次

6.2 Results

  1. strongly convex loss(带有参数正则化的逻辑回归):不同学习率下的acc和loss对比,iid时fedavg性能更好,noniid时personalized更好。另外更大的学习率对noniid数据集有正面作用。
  2. 还比较了不同的sample ratio下的训练性能,越大性能越好
  3. 自适应 α \alpha α 相较于其它结果
  4. nonconvex loss:Cifar-10 vs FedAvg、SCAFFOLD
  5. Natural heterogeneous data: EMNIST vs FedAvg
  6. Comparison with other personalization methods: EMNIST vs FedAvg、PerAvg、pFedMe

7 讨论

  • 关于文本所提的适应性:当局部分布远离全局分布时,全局模型对本地模型更新帮助较小,因此改变自适应alpha的值,让本地模型的比例更大,可以更好得适应不同本地分布。
  • 面向新节点的个性化(seen task):
    • APFL vs MAML. APFL:不同用户间共享知识,以减少泛化误差;MAML:更关心如何构建元学习器,用更少的样本更快的训练本地个性化模型
    • 实验对比,在训练完全局模型后,增加的新节点上,APFL的性能比FedAvg更好。

这篇关于阅读记录【arXiv2020】 Adaptive Personalized Federated Learning的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/407387

相关文章

Servlet中配置和使用过滤器的步骤记录

《Servlet中配置和使用过滤器的步骤记录》:本文主要介绍在Servlet中配置和使用过滤器的方法,包括创建过滤器类、配置过滤器以及在Web应用中使用过滤器等步骤,文中通过代码介绍的非常详细,需... 目录创建过滤器类配置过滤器使用过滤器总结在Servlet中配置和使用过滤器主要包括创建过滤器类、配置过滤

正则表达式高级应用与性能优化记录

《正则表达式高级应用与性能优化记录》本文介绍了正则表达式的高级应用和性能优化技巧,包括文本拆分、合并、XML/HTML解析、数据分析、以及性能优化方法,通过这些技巧,可以更高效地利用正则表达式进行复杂... 目录第6章:正则表达式的高级应用6.1 模式匹配与文本处理6.1.1 文本拆分6.1.2 文本合并6

python与QT联合的详细步骤记录

《python与QT联合的详细步骤记录》:本文主要介绍python与QT联合的详细步骤,文章还展示了如何在Python中调用QT的.ui文件来实现GUI界面,并介绍了多窗口的应用,文中通过代码介绍... 目录一、文章简介二、安装pyqt5三、GUI页面设计四、python的使用python文件创建pytho

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟 开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚 第一站:海量资源,应有尽有 走进“智听

Node.js学习记录(二)

目录 一、express 1、初识express 2、安装express 3、创建并启动web服务器 4、监听 GET&POST 请求、响应内容给客户端 5、获取URL中携带的查询参数 6、获取URL中动态参数 7、静态资源托管 二、工具nodemon 三、express路由 1、express中路由 2、路由的匹配 3、路由模块化 4、路由模块添加前缀 四、中间件

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓

学习记录:js算法(二十八):删除排序链表中的重复元素、删除排序链表中的重复元素II

文章目录 删除排序链表中的重复元素我的思路解法一:循环解法二:递归 网上思路 删除排序链表中的重复元素 II我的思路网上思路 总结 删除排序链表中的重复元素 给定一个已排序的链表的头 head , 删除所有重复的元素,使每个元素只出现一次 。返回 已排序的链表 。 图一 图二 示例 1:(图一)输入:head = [1,1,2]输出:[1,2]示例 2:(图

软件架构模式:5 分钟阅读

原文: https://orkhanscience.medium.com/software-architecture-patterns-5-mins-read-e9e3c8eb47d2 软件架构模式:5 分钟阅读 当有人潜入软件工程世界时,有一天他需要学习软件架构模式的基础知识。当我刚接触编码时,我不知道从哪里获得简要介绍现有架构模式的资源,这样它就不会太详细和混乱,而是非常抽象和易

perl的学习记录——仿真regression

1 记录的背景 之前只知道有这个强大语言的存在,但一直侥幸自己应该不会用到它,所以一直没有开始学习。然而人生这么长,怎就确定自己不会用到呢? 这次要搭建一个可以自动跑完所有case并且打印每个case的pass信息到指定的文件中。从而减轻手动跑仿真,手动查看log信息的重复无效低质量的操作。下面简单记录下自己的思路并贴出自己的代码,方便自己以后使用和修正。 2 思路整理 作为一个IC d