随机规划：求解报童问题期望值模型的算法方案

本文主要是介绍随机规划：求解报童问题期望值模型的算法方案，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

1 引言
2 数学模型
3 报童问题
- 3.1 直接最优化
- 3.2 样本均值近似
- 3.3 两阶段规划
- 3.4 结果分析
4 在线求教
5 相关阅读

1 引言

上一篇关于不确定优化的文章（不确定优化入门：用简单实例讲明白随机规划、鲁棒优化和分布鲁棒优化）发表后，被部分大佬认为是一篇科普文，有点诚惶诚恐，毕竟我从今年才开始认真学习不确定优化，水平还很有限。

秉承着先了解大概框架再深入学习各类算法细节的心态，我在那篇文章中，用简化版的报童问题，把求解不确定优化的各类算法方案做了直观上的实践和比较，完成了算法框架的初步梳理。

现在，已经到学习算法方案详细设计的阶段了。

我的学习路径一如既往的是从简单到复杂，所以，本文要研究的问题是随机规划中最简单的一类：决策变量只有1个，不确定参数也只有1个且分布函数已知；解决问题的基本思路是最优化其目标函数的期望值，有些书中也称之为期望值模型。

正文见下。

2 数学模型

先看一下确定性优化模型
$\text{min} \quad f(\pmb x) \\ \text{s.t} \quad g_j(\pmb x)≤0, j=1,2,...,N \\$
其中 $\pmb x$ 是决策变量， $f$ 是目标函数表达式， $g$ 是约束条件表达式。

增加随机变量 $\pmb \xi$ 后，上述模型就变为不确定优化模型
$\ \text{min} \quad E[f(\pmb x,\pmb \xi)] \nonumber \\ \text{s.t} \quad E[g_j(\pmb x,\pmb \xi)]≤0, j=1,2,...,N \nonumber \\$
式中， $E$ 表示期望，假设 $\pmb \xi$ 的概率密度函数为 $\phi(\pmb \xi)$ ，目标函数和约束条件的表达式可以表示为
$E[f(\pmb x,\pmb \xi)]=\int f(\pmb x,\pmb \xi)\phi(\pmb \xi)d\pmb \xi \\ E[g_j(\pmb x,\pmb \xi)]=\int g_j(\pmb x,\pmb \xi)\phi(\pmb \xi)d\pmb \xi$
如果 $\pmb \xi$ 是离散随机变量，且其分布函数为 $P(\pmb \xi=\pmb \xi_i)=\theta_i,i\in I$ ，目标函数和约束条件的表达式可以表示为
$E[f(\pmb x,\pmb \xi)]=\sum_{i\in I} \theta_i f(\pmb x,\pmb \xi_i) \\ E[g_j(\pmb x,\pmb \xi)]=\sum_{i\in I} \theta_i g_j(\pmb x,\pmb \xi_i)$

3 报童问题

有了模型后，我们还需要知道用什么算法可以求解。

本节主要使用报童问题作为实例，来阐述在决策变量只有1个、不确定参数也只有1个的情况下，可以得到最优解的各类算法方案。

报童问题可以描述为：报童每天需要采购一定数量的报纸用于当天的销售。已知每份报纸的成本价 $c = 5$ ，销售价 $p = 8$ ，需求量 $d$ 是个不确定参数，通过历史的数据可知其分布服从正态分布，均值是 $\mu=100$ ，方差为 $\sigma=20$ ，如果当天卖不完，会按回收价 $s = 4$ 将未卖完的报纸卖给回收站。

现在需要确定报童的最佳订购量 $x$ ，使得报童的净收入 $\theta(x)$ 最大化。 $\theta(x)$ 的表达式为
$\theta(x)=p·E[\min(x,d)]+s·E[\max(x-d,0)]-cx$
第一项是售卖报纸的收益，第二项是回收报纸的收益，第三项是购买报纸的成本。

3.1 直接最优化

常规求解思路是：对 $\theta(x)$ 求导使其梯度等于0，即可得到最佳 $x$ 。

但由于公式中涉及到 $x$ 和 $d$ 的大小判断， $\theta(x)$ 的导数并不好算，为此，可以先把上面的 $x$ 转换成一个新的变量 $x - d$ ，接着转变 $\theta(x)$ 的表达式。

对于 $\min(x,d)$ 项，将其做如下转化
$\min(x,d)=d-\max(d-x,0)$
上式的正确性可以分 $x > d$ 和 $x \leq d$ 来依次验证： $x > d$ 时，左边为 $d$ ，右边为 $d - 0 = d$ ； $x \leq d$ 时，左边为 $x$ ，右边为 $d - (d - x) = x$ 。
对于 $s·E[\max(x-d,0)]$ 项，不需要调整。
对于 $c x$ 项，将其做如下转化
$cx=c(x-d)+cd=c\max(d-x,0)-c\max(x-d,0)+cd$
上式的正确性也可以分 $x > d$ 和 $x \leq d$ 来验证，这里就不赘述了。
将上述三式重新组合，目标函数 $\theta(x)$ 的表达式变为
$\theta=(p-c)·E(d)-\{(p-c)·E[\max(d-x,0)]+(c-s)·E[\max(x-d,0)]\}$
定义 $b=p-c,h=c-s,\alpha=b·E[\max(d-x,0)]+h·E[\max(x-d,0)]$ ，则最大化 $\theta$ 等价于最小化 $\alpha$ 。

事实上， $\alpha$ 中的两个表达式也可以分别理解为：因购买量过少导致的脱销损失和因购买量过多导致的滞销损失。此外，从上式中还可以看出，由于 $\alpha≥0$ ，所以考虑不确定后，期望收益肯定不高于不考虑不确定时的收益值。

为了求得最小化的 $\alpha$ ，将其表达式求导并令其等于0
$b·E\frac{\partial \max(d-x,0)}{\partial x}+h·E\frac{\partial \max(x-d,0)}{\partial x}=0$
需要注意的是，一维求导一般用 $d x$ 就可以，但是本文已经使用 $d$ 表示需求量，为了区分，此处使用了 $\partial x$ 的形式。

先看第一项。 $x \geq d$ 时， $\max(d-x,0)=0$ ，对 $x$ 求导后是0；当 $x < d$ 时， $\max(d-x,0)=d-x$ ，对 $x$ 求导后是-1。设 $x$ 的分布概率为 $P (x)$ ，第一项可以表示为
$b·E\frac{\partial \max(d-x,0)}{\partial x}=b\int _{x_{\min}}^d P(x)·(-1)dx=-bPr(x < d)=-b[1-Pr(d≤x)]$
式中， $P r (d \leq x)$ 为累积分布函数。

同理，可以求得第二项为的结果为
$h·E\frac{\partial \max(x-d,0)}{\partial x}=hPr(d≤x)$
将上述两式带回梯度值等于0的等式约束中，可以得到
$Pr(d≤x)=\frac{b}{b+h}=\frac{p-c}{p-s}$

这里还有个小的点需要注意，我们要计算的是 $P r (d \leq x)$ ，而不是 $P r (x \leq d)$ 。虽然 $x$ 是决策变量，但是随机变量是 $d$ ，后续还需要根据 $d$ 的累积分布函数值反求 $x$ 。

根据之前的定义， $b = 1, h = 3$ ，此时最优解满足
$Pr(d≤x)=\frac{b}{b+h}=0.75$

调用如下代码，可以反算出 $x = 113.49$ 。

IN [40]: import scipy
IN [41]: scipy.stats.norm.ppf(0.75, loc=100, scale=20)
Out[41]: 113.48979500392163

3.2 样本均值近似

用最优化的方法推导最优解的解析表达式，虽然优雅，但是对数学的要求比较高，而且如果问题复杂度提升了，能否推导出来都是一个问题。

既然如此，数值的方法就也值得一试。其中，最常见的方法，就是样本均值近似。在该方法中，通过抽样的方式把随机变量转变为一组离散参数，这样就可以把不确定优化问题转化为确定优化问题。

以下为使用样本均值近似实现不确定优化的具体代码。首先使用正态分布随机产生100000个 $d$ 值，然后设置决策变量范围为80~120，依次计算不同决策变量值下的总收益，并将最优解保留下来。

import numpy as npif __name__ == '__main__':# 报童模型参数c = 5s = 4p = 8# 需求分布参数mu = 100sigma = 20d = np.random.normal(mu, sigma, 100000)# 最优解best_f = 0best_x = 0# 遍历所有决策变量x：范围80~120for cur_x in range(80, 120):cur_f = 0# 需求参数for cur_d_index in range(len(d)):cur_d = d[cur_d_index]# 计算当前决策变量和当前需求值时的值cur_f += p * min(cur_x, cur_d) + s * max(cur_x - cur_d, 0) - c * cur_x# 更新最优解if cur_f > best_f:best_f = cur_fbest_x = cur_xprint('best_x: {}, best_f: {}.'.format(best_x, best_f / len(d)))