【论文快读】The Multiplicative Weights Update Method: A Meta-Algorithm and Application

本文主要是介绍【论文快读】The Multiplicative Weights Update Method: A Meta-Algorithm and Application,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这算是早期阅读的paper,既然开了blog,就一并贴上来,感觉report写的还是有点又臭又长,不过总归是在一步一个脚印往前走啦。
链接:https://www.cs.princeton.edu/~arora/pubs/MWsurvey.pdf
作者:Sanjeev Arora,Elad Hazan,Satyen Kale
摘要:
abs
有一种叫作Multiplicative Weights的算法思想在许多领域都有应用,以至于可以将其类比于“分而治之”这样的“元算法”。
Multiplicative Weights方法可以解释为:决策者有一个包含n种备选决策的集合,每种决策包含特定的收益m,决策者通过反复地做出选择(同时获得相应收益)来实现长期运行下的最大化收益。尽管这种最佳选择不是先验的,我们依然能够通过维护权重,并依此随机选择来实现一个最佳的方案。具体操作是:每一轮把当前权重和一个与当前轮收益有关的因子做乘法。长此以往,拥有最高收益的方案被选中的概率将显著增大。
这一思想的应用领域包括:凸优化、经济学和博弈论中的“Fictitious Play”、机器学习中Littlestone的Winnow算法、Freund和Schapire的Hedge算法等,计算几何学中Clarkson的研究也是以上思想的一个应用。
作为Multiplicative Weights方法的一种特例,weighted majority算法可以通过Prediction from Expert Advice问题来说明:
一段时期内投资某一支股票,假设每天有下跌或上涨两种状态,每天早晨我们会根据专家集合中的某一位专家的建议预测股票的走势,如果预测错误,记亏损1美元;如果预测正确,记亏损为0。股票的走势是随机的甚至是存在对手参与博弈的。算法的目标是使得长时间下的总损失控制在表现最好的专家附近。算法最初的预想是“少数服从多数”原则,但是由于每一轮中多数专家可能都会犯错,我们转而维护一组专家的权重,每次服从加权后多数专家的意见。
定理1.1中假定:n个专家的初始权重都是1;每轮预测结果为两个可能的答案中的1个;引入参数 η<12 η < 1 2 ,对于预测错误的专家给予下轮权重乘 (1η) ( 1 − η ) 惩罚。则可以证明T步后weighted majority算法的犯错上界为 2(1+η)m(T)i+2lnnη 2 ( 1 + η ) m i ( T ) + 2 ln ⁡ n η
主要证明思路:
ω(T+1)iΦ(T+1)n(1η2)M(T) ω i ( T + 1 ) ≤ Φ ( T + 1 ) ≤ n ( 1 − η 2 ) M ( T )
对于预测错误的专家: ω(t+1)i=(1η)m(t)i ω i ( t + 1 ) = ( 1 − η ) m i ( t )
ln(1η)η+η2 − ln ⁡ ( 1 − η ) ≤ η + η 2
ln(1η2)<η2 ln ⁡ ( 1 − η 2 ) < − η 2
定理2.1及其推论分别假定:对于专家i,第t轮成本 [1,1] ∈ [ − 1 , 1 ] ;完成一次决策后每位专家的权重乘 (1ηm(t)i) ( 1 − η m i ( t ) ) ,然后所有专家权重归一化处理作为下一轮的选择概率。则所有前t轮总成本的期望之和存在上界 Tt=1m(t)i+ηTt=1m(t)i+lnnη ∑ t = 1 T m i ( t ) + η ∑ t = 1 T | m i ( t ) | + ln ⁡ n η
主要证明思路:
Φ(T+1)Φ(T)eηm(T)p(T)Φ(1)eηTt=1m(t)p(t) Φ ( T + 1 ) ≤ Φ ( T ) e − η m ( T ) p ( T ) ≤ Φ ( 1 ) e − η ∑ t = 1 T m ( t ) p ( t ) ,
Φ(T+1)ω(T+1)i=tT(1ηm(t)i)(1η)0m(t)i(1+η)<0m(t)i Φ ( T + 1 ) ≥ ω i ( T + 1 ) = ∏ t ≤ T ( 1 − η m i ( t ) ) ≥ ( 1 − η ) ∏ ≥ 0 m i ( t ) ( 1 + η ) − ∏ < 0 m i ( t )
1x<exln(1η)η+η2 1 − x < e − x 得 到 − ln ⁡ ( 1 − η ) ≤ η + η 2
定理2.3中的hedge算法用指数乘数代替了定理2.1中的线性乘数,得到了上界。在某些应用场景下,该表达式具有更强的约束。
前述定理都是通过根据损失,对犯错专家进行了降权惩罚。换一个角度,如果对预测正确的专家进行升权奖励,也能得到类似的结果,定理2.5及其推论给出了所有收益期望的下界,证明方法类似。
在实际应用中,MW主要解决约束优化问题,解决思路为:根据约束得到一个decision,根据对domain中的各个点的满足情况确定该decision的cost,降低已经满足约束的点的权重,这样我们就能重点关注尚未满足的点,最终实现完全拟合。于是就有了算法的两个主要步骤:选出成本最大的点,据此来更新权重。

应用1 线性规划问题的解法:Winnow算法。

对于数据集 (a1,l1) ( a 1 , l 1 ) , (a2,l2) ( a 2 , l 2 ) , ….. (am,lm) ( a m , l m ) ai a i 是n维向量, li l i 在±1中取值,由分类器 Sigmoid(aix) S i g m o i d ( a i x ) 判决,等效为判决 aix a i x 的正负性的线性规划问题。类比于前述专家咨询问题,每个特征比作一个专家,每个数据比作一轮迭代,分类器视作对于专家给出选择的一个分布。
反复使用增益形式的算法进行迭代,直至无错误发生。由推论2.6可知,得到较好的解的迭代次数为 T<4ρ2lnnϵ2 T < 4 ρ 2 ln ⁡ n ϵ 2

应用2:零和博弈的近似解

问题描述:两个人(行玩家和列玩家)在一个收益矩阵 A A 中进行游戏,行玩家执行策略i,列玩家以 q q 的概率在各列中选择j并获得收益 Aij A i j ,然后行玩家以 p p 的概率选择行,得到收益期望 A(p,j) A ( p , j ) ,依次类推。对于列玩家而言,自己获得最大收益j,并使对方获得最小收益的策略表示为 minpmaxjA(p,j) min p max j A ( p , j ) ;先使对方获得最小收益,然后自己从中获取最大收益的策略表示为 maxqminiA(i,q) max q min i A ( i , q ) ,根据冯诺依曼最大最小原理,二者的效果是相同的,再引入容错参数 ϵ ϵ 之后我们的ORACLE算法可以找出一个最佳的回复策略。定理3.1给出了该策略的迭代时间

应用5:NP难解问题的O(log n)近似解:

对于NP难解问题,通常通过三个步骤来求解 O(logn) O ( log ⁡ n ) 近似解:LP solving、randomized rounding、derandomization。Young通过MW算法将三个过程统一起来,同时提高了执行的效率。
化简过程如下:一系列任意有界独立随机变量 X1,X2, X 1 , X 2 , ……可以由它们的和的期望简化表示(Chernoff-Hoeffding bound技术, E[eλXi] E [ e λ ∑ X i ] ),进一步 Pr(Xi>m)=Pr(eηXi>eλm)<E[eηXi]eλm P r ( ∑ X i > m ) = P r ( e η ∑ X i > e λ m ) < E [ e η ∑ X i ] e λ m (Markov不等式, Pr(X>a)<E(X)a P r ( X > a ) < E ( X ) a ),所以把 E[eηXi] E [ e η ∑ X i ] 作为最坏估计,并依次选择来减小该最差估计即可。在此算法中,随机变量 E[eηXi] E [ e η ∑ X i ] 中已经确定的部分就是MW算法中的权重。
以经典的集合覆盖问题为例,需要覆盖的全集为 U={1,2,n} U = { 1 , 2 , … n } 中的每个元素为1个约束,每次迭代从子集集合 C C 中选取1个子集。第t次迭代中, w(t) w ( t ) 表示所有覆盖子集 {Ci} { C i } 的选择概率, mi m i 表示各自的成本,定义为包含在中的尚未覆盖元素的总数在所有未覆盖元素中的占比。取 η=1 η = 1 ω(t+1)i=ω(t)i(1m(t)i) ω i ( t + 1 ) = ω i ( t ) ( 1 − m i ( t ) ) ,根据定理2.1,若至少需要opt个子集方能覆盖 U U ,则可以证明经过 ln(n)[opt] ln ⁡ ( n ) [ o p t ] 次迭代后即可完成覆盖。

应用6:学习理论和boosting

学习问题具有如下形式:在一个区域X上的数据集 x x ,以一定的concept c(x)映射到{0,1},我们通过学习到假设函数h(x),定义error为 E[|h(x)c(x)|] E [ | h ( x ) − c ( x ) | ]
Boosting方法可以借助MW算法证明:如果一个concept类的γ-weak learning algorithm存在,那么一定也能找到一个对应的strong learning algorithm。

应用8:Hanna算法

对象——决策问题,记 m(t)I m I ( t ) 表示第t次决策中备选选项i的cost。
决策依据:在第t次选择使得 L(t)i+ri L i ( t ) + r i 最小的选项i,其中 L(t)i=τ<tm(τ)i L i ( t ) = ∑ τ < t m i ( τ ) ri r i 为随机数。
由引理3.10可知,取 ri=1ηlnln(ui) r i = 1 η ln ⁡ ln ⁡ ( u i ) ui u i 为[0,1]上的随机数)时,选择到某一特定选项i的概率为 eηL(t)ijeηL(t)j e − η L i ( t ) ∑ j e − η L j ( t ) ,表达式与随机数的选取无关,分母与每一次选出的选项无关,分子仅与每个选项的历史性能有关,多次运行之下,即可保证成本更高的选项有更小的概率被选到。

应用9:在线凸优化

问题描述:在n维连续凸紧的判决域 K K 上,每轮选取一个点 p(t) p ( t ) 对读入数据进行判决,记损失函数 f(t)(p(t))=m(t)p(t) f ( t ) ( p ( t ) ) = m ( t ) p ( t ) ρ=maxpKmaxtf(t)(p) ρ = max p ∈ K max t ‖ ∇ f ( t ) ( p ) ‖ ∞ ,t=T时的regret为 Tt=1f(t)(p(t))minpKTt=1f(t)(p(t)) ∑ t = 1 T f ( t ) ( p ( t ) ) − min p ∈ K ∑ t = 1 T f ( t ) ( p ( t ) )
定义 η=lnnT η = ln ⁡ n T m(t)=1ρf(t)(p(t)) m ( t ) = 1 ρ ∇ f ( t ) ( p ( t ) ) 由推论2.2可以证明该regret具有上界 2ρTlnn 2 ρ T ln ⁡ n
定理4.1证明,以上所有MW算法应用的时间复杂度处于 [miniTt=1m(t)I+Ω(Tln(n)),miniTt=1m(t)I+O()] [ min i ∑ t = 1 T m I ( t ) + Ω ( T ln ⁡ ( n ) ) , min i ∑ t = 1 T m I ( t ) + O ( ) ] ,无法获得更进一步的改进优化。
文章最后推广了矩阵形式的WM算法,描述为:定义成本矩阵 M(t) M ( t ) ,维护权重矩阵 W(t) W ( t ) ,初始化 W(1) W ( 1 ) 为n阶单位矩阵 In I n ,记权重更新规则 W(t+1)=W(t)˙eηM(t) W ( t + 1 ) = W ( t ) ˙ e − η M ( t ) (·表示标量积),定义密度矩阵 P(t)=W(t)Tr(W(t)) P ( t ) = W ( t ) T r ( W ( t ) ) ,类比于定理2.3,定理7.1表明t轮之后总成本的期望 tτ=1M(τ)P(τ) ∑ τ = 1 t M ( τ ) P ( τ ) 具有相似形式的上界,并介绍了矩阵WM算法在半正定规划问题求解中的应用。

这篇关于【论文快读】The Multiplicative Weights Update Method: A Meta-Algorithm and Application的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/849192

相关文章

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

模版方法模式template method

学习笔记,原文链接 https://refactoringguru.cn/design-patterns/template-method 超类中定义了一个算法的框架, 允许子类在不修改结构的情况下重写算法的特定步骤。 上层接口有默认实现的方法和子类需要自己实现的方法

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需

(南京观海微电子)——GH7006 Application Note

Features ⚫ Single chip solution for a WXGA α-Si type LCD display ⚫ Integrate 1200 channel source driver and timing controller ⚫ Display Resolution: ◼ 800 RGB x 480 ◼ 640 RGB x 480 ⚫ Display int

2024 年高教社杯全国大学生数学建模竞赛 C 题 农作物的种植策略 参考论文 无水印

持续更新中,2024年数学建模比赛思路代码论文都会发布到专栏内,只需订阅一次!  完整论文+代码+数据结果链接在文末!  订阅后可查看参考论文文件 第一问 1.1 问题重述 这个问题围绕的是华北山区的某乡村,在有限的耕地条件下,如何制定最优的农作物种植策略。乡村有 34 块露天耕地和 20 个大棚,种植条件包括粮食作物、蔬菜、水稻和食用菌。除了要考虑地块的面积、种植季节等,还要确保