优化问题的拉格朗日Lagrange对偶法原理

2023-11-20 16:10

本文主要是介绍优化问题的拉格朗日Lagrange对偶法原理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

首先我们定义一般形式的求解x的优化问题:

\\ \text{ Minimize }\ f_o(x) \\ f_i(x)\leq 0, i=1,...,m \\ h_j(x)= 0, j=1,...n \\

  • f_o(x)表示优化的目标函数,上述为最小优化,实际上最大优化可以改写为-f_o(x)的形式
  • f_i(x)\leq 0表示第i个不等式约束
  • h_j(x)=0表示等式约束

1. Lagrange对偶问题

上述优化问题的拉格朗日Lagrange对偶法求解,是将上述带约束的目标优化问题改写为如下无约束的Lagrange函数式子。

L(x,\lambda ,\nu )=f_o(x) + \sum_i^m \lambda_i f_i(x) + \sum_j^n \nu_j h_j(x)

上述Lagrange函数式子存在如下对偶函数,其是Lagrange函数关于x取最小值,即:

g(\lambda ,\nu) = \underset{x}{inf}(L(x,\lambda ,\nu ))=\underset{x}{inf}(f(x) + \sum_i^m \lambda_i f_i(x) + \sum_j^n \nu_j h_j(x))

对偶函数是关于\lambda ,\nu的函数,很显然其是原来Lagrange函数式子的下界,假设优化问题存在最优解x^*,当\lambda_i\geq 0时,此时存在最优目标大于对偶函数。

f_o(x^*)>L(x^*,\lambda ,\nu )=f_o(x^*) + \sum_i^m \lambda_i f_i(x^*) + \sum_j^n \nu_j h_j(x^*)>=g(\lambda ,\nu)

Lagrange对偶法即是通过最大化原问题Lagrange对偶函数,从而逼近原问题的下界来求解原问题最优解,因为\lambda ,\nu的参数远小于原问题的求解参数,因此转换为对偶问题后,求解更为简单。

\\ \text{ Maximize }\ g(\lambda, \nu) \\ \lambda_i \geq 0, i=1,...,m

2. 强弱对偶性

接下来的问题是通过对偶函数得到下界d^*同原问题的最优解p^*之间的差距是多少?当对偶函数得到下界同原问题的最优解相等时,称之为强对偶性,反之称为弱对偶性。而这个差值称之为最优对偶间距

Slater约束准则给出为强对偶性成立的条件:

  • 原问题f_o(x)是凸问题
  • 存在内点使得所有的不等式约束严格成立即f_i(x) < 0,如果f_i(x)是仿射不等式时取等于也是可行的。

3. 如何转换为对偶函数

因为对偶函数g(\lambda ,\nu )是Lagrange函数关于x取最小值,假设L(x,\lambda ,\nu )是关于x的凸函数,且存在关于x的最小值,此时存在\hat{x}使得关于x的偏导数为0,则存在对偶函数为g(\lambda, \nu)=L(\hat{x},\lambda, \nu)

\frac{\partial }{\partial x}L(\hat{x},\lambda, \nu)=0

假设为对偶函数为g(\lambda, \nu)=L(\hat{x},\lambda, \nu)也是关于\lambda, \nu可导,此时最优值\lambda^*, \nu^*存在

\\ \frac{\partial }{\partial \lambda_i}g(\lambda^*, \nu^*)=f_i(\hat{x}) \leq 0 \\ \frac{\partial }{\partial \nu_j}g(\lambda^*, \nu^*)=h_j(\hat{x})=0

此外最优值\lambda^*, \nu^*要使对偶函数g(\lambda, \nu)存在最大值,由于\lambda_i\geq 0,因此:

\lambda_if_i(\hat{x})=0

上述五个条件构成了在Slater约束准则下求解优化问题最优解\hat{x}存在的KKT条件:

\begin{cases} \frac{\partial }{\partial x}L(\hat{x},\lambda, \nu)=0 \\ \frac{\partial }{\partial \lambda_i}g(\lambda^*, \nu^*)=f_i(\hat{x}) \leq 0 \\ \frac{\partial }{\partial \nu_j}g(\lambda^*, \nu^*)=h_j(\hat{x})=0 \\ \lambda_if_i(\hat{x})=0 \\ \lambda_i\geq 0 \end{cases}

例子1:线性规划问题

首先我们定义一个一般性的线性规划问题,其中x是表示求解向量[x_1,x_2,...,x_n],该问题可解是指存在唯一解。

\\ \text{ Minimize }\ c^T\cdot x \\ \text{subject: }A\cdot x \leq b

Lagrange函数式子表示为:

L(x,\lambda )=c^Tx + \lambda(Ax-b)=-\lambda b + (c^T + \lambda A)x

Lagrange函数仅当c^T + \lambda A=0时,才是有界的,此时对偶函数为g(\lambda )=-\lambda b,否则为负无穷,因此原问题可以转换为求解对偶问题g(\lambda )=-\lambda b的最大值,此时Slater约束准则,对偶问题的解也是原问题的最优解。

\\ \text{ Maximize }\ -\lambda b \\ \text{subject: }c^T + \lambda A=0 ,\ \lambda \geq 0

例子2:最小二乘法

考虑以下问题:

\\ \text{ Minimize }\ x^T\cdot x \\ \text{subject: }A\cdot x = b

Lagrange函数式子表示为:

L(x,\nu)=x^Tx + \nu^T(Ax-b)=-b\nu^T + x^Tx + \nu^T Ax

Lagrange函数关于x是二阶可导的凸函数,存在最小值的解\hat{x}

\frac{\partial }{\partial x}L(\hat{x},\lambda, \nu)=2\hat{x}+A^T\nu =0\rightarrow \hat{x}=-\frac{1}{2}A^T\nu

此时对偶函数为下式,此时原问题被转换为一个无约束的对偶问题的求解。

g(\nu)=L(\hat{x}, \nu)=\hat{x}^T \hat{x} + \nu^T A\hat{x}-b^T\nu =-\frac{1}{4}\nu^T AA^T\nu-b^T\nu

4. 最优问题的转换

接下来我们考虑更为通用的优化问题形式,之前讨论了不等式约束中的大于和小于可以通过变换符号进行调整,实际上我们可以通过新增求解变量x_i^s将不等式约束转换为等式约束:

\\ \text{ Minimize }\ f_o(x) \\ f_i(x) + x_i^s = 0, i=1,...,m \\ h_j(x)= 0, j=1,...n \\ x_i^s\geq 0

结合上述对偶问题的转换,我们可以将通用的优化问题形式转换为等式约束问题,甚至无约束的问题,下一篇我们将介绍等式约束优化问题和无约束优化问题的通用求解方法。

这篇关于优化问题的拉格朗日Lagrange对偶法原理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/395845

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

hdu4407(容斥原理)

题意:给一串数字1,2,......n,两个操作:1、修改第k个数字,2、查询区间[l,r]中与n互质的数之和。 解题思路:咱一看,像线段树,但是如果用线段树做,那么每个区间一定要记录所有的素因子,这样会超内存。然后我就做不来了。后来看了题解,原来是用容斥原理来做的。还记得这道题目吗?求区间[1,r]中与p互质的数的个数,如果不会的话就先去做那题吧。现在这题是求区间[l,r]中与n互质的数的和

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

MySQL高性能优化规范

前言:      笔者最近上班途中突然想丰富下自己的数据库优化技能。于是在查阅了多篇文章后,总结出了这篇! 数据库命令规范 所有数据库对象名称必须使用小写字母并用下划线分割 所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名识意,并且最后不要超过32个字符 临时库表必须以tmp_为前缀并以日期为后缀,备份

缓存雪崩问题

缓存雪崩是缓存中大量key失效后当高并发到来时导致大量请求到数据库,瞬间耗尽数据库资源,导致数据库无法使用。 解决方案: 1、使用锁进行控制 2、对同一类型信息的key设置不同的过期时间 3、缓存预热 1. 什么是缓存雪崩 缓存雪崩是指在短时间内,大量缓存数据同时失效,导致所有请求直接涌向数据库,瞬间增加数据库的负载压力,可能导致数据库性能下降甚至崩溃。这种情况往往发生在缓存中大量 k