优化问题的拉格朗日Lagrange对偶法原理

2023-11-20 16:10

本文主要是介绍优化问题的拉格朗日Lagrange对偶法原理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

首先我们定义一般形式的求解x的优化问题:

\\ \text{ Minimize }\ f_o(x) \\ f_i(x)\leq 0, i=1,...,m \\ h_j(x)= 0, j=1,...n \\

  • f_o(x)表示优化的目标函数,上述为最小优化,实际上最大优化可以改写为-f_o(x)的形式
  • f_i(x)\leq 0表示第i个不等式约束
  • h_j(x)=0表示等式约束

1. Lagrange对偶问题

上述优化问题的拉格朗日Lagrange对偶法求解,是将上述带约束的目标优化问题改写为如下无约束的Lagrange函数式子。

L(x,\lambda ,\nu )=f_o(x) + \sum_i^m \lambda_i f_i(x) + \sum_j^n \nu_j h_j(x)

上述Lagrange函数式子存在如下对偶函数,其是Lagrange函数关于x取最小值,即:

g(\lambda ,\nu) = \underset{x}{inf}(L(x,\lambda ,\nu ))=\underset{x}{inf}(f(x) + \sum_i^m \lambda_i f_i(x) + \sum_j^n \nu_j h_j(x))

对偶函数是关于\lambda ,\nu的函数,很显然其是原来Lagrange函数式子的下界,假设优化问题存在最优解x^*,当\lambda_i\geq 0时,此时存在最优目标大于对偶函数。

f_o(x^*)>L(x^*,\lambda ,\nu )=f_o(x^*) + \sum_i^m \lambda_i f_i(x^*) + \sum_j^n \nu_j h_j(x^*)>=g(\lambda ,\nu)

Lagrange对偶法即是通过最大化原问题Lagrange对偶函数,从而逼近原问题的下界来求解原问题最优解,因为\lambda ,\nu的参数远小于原问题的求解参数,因此转换为对偶问题后,求解更为简单。

\\ \text{ Maximize }\ g(\lambda, \nu) \\ \lambda_i \geq 0, i=1,...,m

2. 强弱对偶性

接下来的问题是通过对偶函数得到下界d^*同原问题的最优解p^*之间的差距是多少?当对偶函数得到下界同原问题的最优解相等时,称之为强对偶性,反之称为弱对偶性。而这个差值称之为最优对偶间距

Slater约束准则给出为强对偶性成立的条件:

  • 原问题f_o(x)是凸问题
  • 存在内点使得所有的不等式约束严格成立即f_i(x) < 0,如果f_i(x)是仿射不等式时取等于也是可行的。

3. 如何转换为对偶函数

因为对偶函数g(\lambda ,\nu )是Lagrange函数关于x取最小值,假设L(x,\lambda ,\nu )是关于x的凸函数,且存在关于x的最小值,此时存在\hat{x}使得关于x的偏导数为0,则存在对偶函数为g(\lambda, \nu)=L(\hat{x},\lambda, \nu)

\frac{\partial }{\partial x}L(\hat{x},\lambda, \nu)=0

假设为对偶函数为g(\lambda, \nu)=L(\hat{x},\lambda, \nu)也是关于\lambda, \nu可导,此时最优值\lambda^*, \nu^*存在

\\ \frac{\partial }{\partial \lambda_i}g(\lambda^*, \nu^*)=f_i(\hat{x}) \leq 0 \\ \frac{\partial }{\partial \nu_j}g(\lambda^*, \nu^*)=h_j(\hat{x})=0

此外最优值\lambda^*, \nu^*要使对偶函数g(\lambda, \nu)存在最大值,由于\lambda_i\geq 0,因此:

\lambda_if_i(\hat{x})=0

上述五个条件构成了在Slater约束准则下求解优化问题最优解\hat{x}存在的KKT条件:

\begin{cases} \frac{\partial }{\partial x}L(\hat{x},\lambda, \nu)=0 \\ \frac{\partial }{\partial \lambda_i}g(\lambda^*, \nu^*)=f_i(\hat{x}) \leq 0 \\ \frac{\partial }{\partial \nu_j}g(\lambda^*, \nu^*)=h_j(\hat{x})=0 \\ \lambda_if_i(\hat{x})=0 \\ \lambda_i\geq 0 \end{cases}

例子1:线性规划问题

首先我们定义一个一般性的线性规划问题,其中x是表示求解向量[x_1,x_2,...,x_n],该问题可解是指存在唯一解。

\\ \text{ Minimize }\ c^T\cdot x \\ \text{subject: }A\cdot x \leq b

Lagrange函数式子表示为:

L(x,\lambda )=c^Tx + \lambda(Ax-b)=-\lambda b + (c^T + \lambda A)x

Lagrange函数仅当c^T + \lambda A=0时,才是有界的,此时对偶函数为g(\lambda )=-\lambda b,否则为负无穷,因此原问题可以转换为求解对偶问题g(\lambda )=-\lambda b的最大值,此时Slater约束准则,对偶问题的解也是原问题的最优解。

\\ \text{ Maximize }\ -\lambda b \\ \text{subject: }c^T + \lambda A=0 ,\ \lambda \geq 0

例子2:最小二乘法

考虑以下问题:

\\ \text{ Minimize }\ x^T\cdot x \\ \text{subject: }A\cdot x = b

Lagrange函数式子表示为:

L(x,\nu)=x^Tx + \nu^T(Ax-b)=-b\nu^T + x^Tx + \nu^T Ax

Lagrange函数关于x是二阶可导的凸函数,存在最小值的解\hat{x}

\frac{\partial }{\partial x}L(\hat{x},\lambda, \nu)=2\hat{x}+A^T\nu =0\rightarrow \hat{x}=-\frac{1}{2}A^T\nu

此时对偶函数为下式,此时原问题被转换为一个无约束的对偶问题的求解。

g(\nu)=L(\hat{x}, \nu)=\hat{x}^T \hat{x} + \nu^T A\hat{x}-b^T\nu =-\frac{1}{4}\nu^T AA^T\nu-b^T\nu

4. 最优问题的转换

接下来我们考虑更为通用的优化问题形式,之前讨论了不等式约束中的大于和小于可以通过变换符号进行调整,实际上我们可以通过新增求解变量x_i^s将不等式约束转换为等式约束:

\\ \text{ Minimize }\ f_o(x) \\ f_i(x) + x_i^s = 0, i=1,...,m \\ h_j(x)= 0, j=1,...n \\ x_i^s\geq 0

结合上述对偶问题的转换,我们可以将通用的优化问题形式转换为等式约束问题,甚至无约束的问题,下一篇我们将介绍等式约束优化问题和无约束优化问题的通用求解方法。

这篇关于优化问题的拉格朗日Lagrange对偶法原理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/395845

相关文章

怎样通过分析GC日志来定位Java进程的内存问题

《怎样通过分析GC日志来定位Java进程的内存问题》:本文主要介绍怎样通过分析GC日志来定位Java进程的内存问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、GC 日志基础配置1. 启用详细 GC 日志2. 不同收集器的日志格式二、关键指标与分析维度1.

Java 线程安全与 volatile与单例模式问题及解决方案

《Java线程安全与volatile与单例模式问题及解决方案》文章主要讲解线程安全问题的五个成因(调度随机、变量修改、非原子操作、内存可见性、指令重排序)及解决方案,强调使用volatile关键字... 目录什么是线程安全线程安全问题的产生与解决方案线程的调度是随机的多个线程对同一个变量进行修改线程的修改操

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语

Redis出现中文乱码的问题及解决

《Redis出现中文乱码的问题及解决》:本文主要介绍Redis出现中文乱码的问题及解决,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1. 问题的产生2China编程. 问题的解决redihttp://www.chinasem.cns数据进制问题的解决中文乱码问题解决总结

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

MySQL中的表连接原理分析

《MySQL中的表连接原理分析》:本文主要介绍MySQL中的表连接原理分析,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1、背景2、环境3、表连接原理【1】驱动表和被驱动表【2】内连接【3】外连接【4编程】嵌套循环连接【5】join buffer4、总结1、背景

全面解析MySQL索引长度限制问题与解决方案

《全面解析MySQL索引长度限制问题与解决方案》MySQL对索引长度设限是为了保持高效的数据检索性能,这个限制不是MySQL的缺陷,而是数据库设计中的权衡结果,下面我们就来看看如何解决这一问题吧... 目录引言:为什么会有索引键长度问题?一、问题根源深度解析mysql索引长度限制原理实际场景示例二、五大解决

Springboot如何正确使用AOP问题

《Springboot如何正确使用AOP问题》:本文主要介绍Springboot如何正确使用AOP问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录​一、AOP概念二、切点表达式​execution表达式案例三、AOP通知四、springboot中使用AOP导出

Python中Tensorflow无法调用GPU问题的解决方法

《Python中Tensorflow无法调用GPU问题的解决方法》文章详解如何解决TensorFlow在Windows无法识别GPU的问题,需降级至2.10版本,安装匹配CUDA11.2和cuDNN... 当用以下代码查看GPU数量时,gpuspython返回的是一个空列表,说明tensorflow没有找到

深度解析Spring AOP @Aspect 原理、实战与最佳实践教程

《深度解析SpringAOP@Aspect原理、实战与最佳实践教程》文章系统讲解了SpringAOP核心概念、实现方式及原理,涵盖横切关注点分离、代理机制(JDK/CGLIB)、切入点类型、性能... 目录1. @ASPect 核心概念1.1 AOP 编程范式1.2 @Aspect 关键特性2. 完整代码实