优化问题的拉格朗日Lagrange对偶法原理

本文主要是介绍优化问题的拉格朗日Lagrange对偶法原理，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

首先我们定义一般形式的求解x的优化问题：

$\\ \text{ Minimize }\ f_o(x) \\ f_i(x)\leq 0, i=1,...,m \\ h_j(x)= 0, j=1,...n \\$

$f_o(x)$ 表示优化的目标函数，上述为最小优化，实际上最大优化可以改写为 $-f_o(x)$ 的形式
$f_i(x)\leq 0$ 表示第i个不等式约束
$h_j(x)=0$ 表示等式约束

1. Lagrange对偶问题

上述优化问题的拉格朗日Lagrange对偶法求解，是将上述带约束的目标优化问题改写为如下无约束的Lagrange函数式子。

$L(x,\lambda ,\nu )=f_o(x) + \sum_i^m \lambda_i f_i(x) + \sum_j^n \nu_j h_j(x)$

上述Lagrange函数式子存在如下对偶函数，其是Lagrange函数关于 $x$ 取最小值，即：

$g(\lambda ,\nu) = \underset{x}{inf}(L(x,\lambda ,\nu ))=\underset{x}{inf}(f(x) + \sum_i^m \lambda_i f_i(x) + \sum_j^n \nu_j h_j(x))$

对偶函数是关于 $\lambda ,\nu$ 的函数，很显然其是原来Lagrange函数式子的下界，假设优化问题存在最优解 $x^*$ ，当 $\lambda_i\geq 0$ 时，此时存在最优目标大于对偶函数。

$f_o(x^*)>L(x^*,\lambda ,\nu )=f_o(x^*) + \sum_i^m \lambda_i f_i(x^*) + \sum_j^n \nu_j h_j(x^*)>=g(\lambda ,\nu)$

Lagrange对偶法即是通过最大化原问题Lagrange对偶函数，从而逼近原问题的下界来求解原问题最优解，因为 $\lambda ,\nu$ 的参数远小于原问题的求解参数，因此转换为对偶问题后，求解更为简单。

$\\ \text{ Maximize }\ g(\lambda, \nu) \\ \lambda_i \geq 0, i=1,...,m$

2. 强弱对偶性

接下来的问题是通过对偶函数得到下界 $d^*$ 同原问题的最优解 $p^*$ 之间的差距是多少？当对偶函数得到下界同原问题的最优解相等时，称之为强对偶性，反之称为弱对偶性。而这个差值称之为最优对偶间距。

Slater约束准则给出为强对偶性成立的条件：

原问题 $f_o(x)$ 是凸问题
存在内点使得所有的不等式约束严格成立即 $f_i(x) < 0$ ，如果 $f_i(x)$ 是仿射不等式时取等于也是可行的。

3. 如何转换为对偶函数

因为对偶函数 $g(\lambda ,\nu )$ 是Lagrange函数关于 $x$ 取最小值，假设 $L(x,\lambda ,\nu )$ 是关于x的凸函数，且存在关于x的最小值，此时存在 $\hat{x}$ 使得关于x的偏导数为0，则存在对偶函数为 $g(\lambda, \nu)=L(\hat{x},\lambda, \nu)$ 。

$\frac{\partial }{\partial x}L(\hat{x},\lambda, \nu)=0$

假设为对偶函数为 $g(\lambda, \nu)=L(\hat{x},\lambda, \nu)$ 也是关于 $\lambda, \nu$ 可导，此时最优值 $\lambda^*, \nu^*$ 存在

$\\ \frac{\partial }{\partial \lambda_i}g(\lambda^*, \nu^*)=f_i(\hat{x}) \leq 0 \\ \frac{\partial }{\partial \nu_j}g(\lambda^*, \nu^*)=h_j(\hat{x})=0$

此外最优值 $\lambda^*, \nu^*$ 要使对偶函数 $g(\lambda, \nu)$ 存在最大值，由于 $\lambda_i\geq 0$ ，因此：

$\lambda_if_i(\hat{x})=0$

上述五个条件构成了在Slater约束准则下求解优化问题最优解 $\hat{x}$ 存在的KKT条件：

$\begin{cases} \frac{\partial }{\partial x}L(\hat{x},\lambda, \nu)=0 \\ \frac{\partial }{\partial \lambda_i}g(\lambda^*, \nu^*)=f_i(\hat{x}) \leq 0 \\ \frac{\partial }{\partial \nu_j}g(\lambda^*, \nu^*)=h_j(\hat{x})=0 \\ \lambda_if_i(\hat{x})=0 \\ \lambda_i\geq 0 \end{cases}$

例子1：线性规划问题

首先我们定义一个一般性的线性规划问题，其中x是表示求解向量 $[x_1,x_2,...,x_n]$ ，该问题可解是指存在唯一解。

$\\ \text{ Minimize }\ c^T\cdot x \\ \text{subject: }A\cdot x \leq b$

Lagrange函数式子表示为：

$L(x,\lambda )=c^Tx + \lambda(Ax-b)=-\lambda b + (c^T + \lambda A)x$

Lagrange函数仅当 $c^T + \lambda A=0$ 时，才是有界的，此时对偶函数为 $g(\lambda )=-\lambda b$ ，否则为负无穷，因此原问题可以转换为求解对偶问题 $g(\lambda )=-\lambda b$ 的最大值，此时Slater约束准则，对偶问题的解也是原问题的最优解。