distance to convex cone

本文主要是介绍distance to convex cone，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

基本定义

定义1：给定 $\leq K \leq N$ ，定义凸锥(convex cone):
$\mathrm{D} = \{ \boldsymbol x | \boldsymbol 1^T \boldsymbol x =0, x_{1: N-K} \leq 0, \boldsymbol x \in \mathbb R^N \}$

定义2：若 $\boldsymbol g \in \mathbb R^N$ 是一个高斯向量，且 $\boldsymbol g \sim \mathcal N(\boldsymbol 0, \boldsymbol I_N)$ ，定义 $\boldsymbol g$ 到凸锥 $\mathrm D$ 的映射为：
$\boldsymbol x = \Pi_{\mathrm D}(\boldsymbol g), \ \ \boldsymbol g \sim \mathcal N(\boldsymbol 0, \boldsymbol I_N)$

其中 $\boldsymbol x \in \mathbb R^N$ 为 $\boldsymbol g$ 映射到 $\mathrm D$ 的向量。

定义3：凸锥 $\mathrm D$ 的统计维数(Statistical Dimension)可以定义为：
$\delta(\mathrm D) = \mathbb E \left [ \left \Vert \Pi_{\mathrm D}(\boldsymbol g) \right \Vert^2 \right], \ \ \boldsymbol g \sim \mathcal N(\boldsymbol 0, \boldsymbol I_N)$

问题描述与建模：建模为凸优化问题

目标：给定 $\mathcal D$ ，计算得到统计维数(Statistical Dimension) $\delta(\mathrm D)$ 。
问题：如果得到映射向量 $\boldsymbol x = \Pi_{\mathrm D}(\boldsymbol g)$ ?
思路：通过建立以下优化问题

$\min_{\boldsymbol x \in \mathrm D} \frac{1}{2} \left \Vert \boldsymbol x - \boldsymbol g \right \Vert^2$

可以等价为

$\begin{aligned} & \min_{\boldsymbol x} \frac{1}{2} \left \Vert \boldsymbol x - \boldsymbol g \right \Vert^2 \\ \text{subject to} & \\ & x_i \leq 0, \ \ \ \ i = 1, \cdots, N-K \\ & \boldsymbol 1^T \boldsymbol x =0 \end{aligned}$

亦可以等价为

$\begin{aligned} & \min_{\boldsymbol x} \frac{1}{2} \left \Vert \boldsymbol x - \boldsymbol g \right \Vert^2 \\ \text{subject to} & \\ & \boldsymbol e^T_i \boldsymbol x \leq 0, \ \ \ \ i = 1, \cdots, N-K \\ & \boldsymbol 1^T \boldsymbol x =0 \end{aligned}$

上述问题是一个凸优化问题（满足强对偶性），我们可以借助拉格朗日方法进行求解。

优化问题求解

我们定义上述优化问题的拉格朗日函数，即 $\mathbb R^ N \times \mathbb R^{N-K} \times \mathbb R \rightarrow \mathbb R$
$L(\boldsymbol x, \boldsymbol \lambda, \nu) = \frac{1}{2} \left \Vert \boldsymbol x - \boldsymbol g \right \Vert^2 + \sum_{i=1}^{N-K} \lambda_i \boldsymbol e^T_i \boldsymbol x + \nu \boldsymbol 1^T \boldsymbol x$

因为 $L(\boldsymbol x, \boldsymbol \lambda, \nu)$ 关于 $\boldsymbol x$ 是凸的，所以我们对 $L$ 求一阶导，得到
$\nabla_x L= \boldsymbol x -\boldsymbol g + \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i + \nu \boldsymbol 1$

因此，当 $\boldsymbol x = \boldsymbol g - \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i - \nu \boldsymbol 1$ ， $L$ 可以取最小值，进一步可以得到对偶函数
$\begin{aligned} h(\boldsymbol \lambda, \nu) &= \inf_{x \in \mathbb R^N} L(\boldsymbol x, \boldsymbol \lambda, \nu) \\ &= L(\boldsymbol x, \boldsymbol \lambda, \nu)|_{\boldsymbol x = \boldsymbol g - \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i - \nu \boldsymbol 1} \\ &= \frac{1}{2} \left \Vert \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i + \nu \boldsymbol 1 \right \Vert^2 + \left ( \sum_{i=1}^{N-K} \lambda_i \boldsymbol e^T_i \right) \left( \boldsymbol g - \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i - \nu \boldsymbol 1 \right) \\ & \ \ \ \ \ \ + \nu \boldsymbol 1^T \left( \boldsymbol g - \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i - \nu \boldsymbol 1 \right) \\ & = \frac{1}{2} \left( \Vert \boldsymbol \lambda \Vert^2 + N \nu^2 + 2 \nu \boldsymbol 1^T \left ( \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i \right) \right) + \left ( \sum_{i=1}^{N-K} \lambda_i \boldsymbol e^T_i \right) \boldsymbol g - \Vert \boldsymbol \lambda \Vert^2 - \nu \boldsymbol 1^T \left ( \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i \right) \\ & \ \ \ \ \ \ + \nu \boldsymbol 1^T \boldsymbol g - \nu \boldsymbol 1^T \left ( \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i \right) - N \nu^2 \\ &= -\frac{1}{2} \Vert \boldsymbol \lambda \Vert^2 + \left ( \sum_{i=1}^{N-K} \lambda_i \boldsymbol e^T_i \right) \boldsymbol g -\frac{1}{2}N \nu^2 - \nu \boldsymbol 1^T \left ( \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i \right) + \nu \boldsymbol 1^T \boldsymbol g \\ & = -\frac{1}{2} \Vert \boldsymbol \lambda \Vert^2 + \left ( \sum_{i=1}^{N-K} \lambda_i \boldsymbol e^T_i \right) \boldsymbol g - \frac{1}{2} \nu \left( N \nu + 2\cdot \boldsymbol 1^T \left ( \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i \right) - 2 \cdot \boldsymbol 1^T \boldsymbol g \right) \end{aligned}$

又因为 $\boldsymbol 1^T \boldsymbol x =0$ ，我们有
$\begin{aligned} & \boldsymbol 1^T \left( \boldsymbol g - \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i - \nu \boldsymbol 1 \right) = 0 \\ \Longrightarrow & N \nu = \boldsymbol 1^T \boldsymbol g - \boldsymbol 1^T \left ( \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i \right) \end{aligned}$

因此，对偶函数 $h(\boldsymbol \lambda, \nu)$ 可以继续化简为
$\begin{aligned} h(\boldsymbol \lambda) &= -\frac{1}{2} \Vert \boldsymbol \lambda \Vert^2 + \left ( \sum_{i=1}^{N-K} \lambda_i \boldsymbol e^T_i \right) \boldsymbol g - \frac{1}{2} \frac{ \boldsymbol 1^T \boldsymbol g - \boldsymbol 1^T \left ( \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i \right)}{N} \left( \boldsymbol 1^T \left ( \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i \right) - \boldsymbol 1^T \boldsymbol g \right) \\ &= -\frac{1}{2} \Vert \boldsymbol \lambda \Vert^2 + \left ( \sum_{i=1}^{N-K} \lambda_i \boldsymbol e^T_i \right) \boldsymbol g + \frac{1}{2N} \left( \boldsymbol 1^T \left ( \sum_{i=1}^{N-K} \lambda_i \boldsymbol e_i \right) - \boldsymbol 1^T \boldsymbol g \right)^2 \\ & = -\frac{1}{2} \Vert \boldsymbol \lambda \Vert^2 + \boldsymbol g_{1:N-K}^T \boldsymbol \lambda + \frac{1}{2N} \left( \boldsymbol \lambda^T \boldsymbol 1_{N-K} - \boldsymbol 1^T_N \boldsymbol g \right)^2 \\ &= -\frac{1}{2} \Vert \boldsymbol \lambda \Vert^2 + \boldsymbol g_{1:N-K}^T \boldsymbol \lambda + \frac{1}{2N} \left( \boldsymbol \lambda^T \boldsymbol 1_{N-K} \boldsymbol 1_{N-K}^T \boldsymbol \lambda - 2 \boldsymbol g^T \boldsymbol 1_N \boldsymbol 1^T_{N-K} \boldsymbol \lambda + |\boldsymbol 1^T_N \boldsymbol g|^2\right) \\ &= -\frac{1}{2} \boldsymbol \lambda^T \left( \boldsymbol I - \frac{1}{N} \boldsymbol 1_{N-K} \boldsymbol 1^T_{N-K} \right) \boldsymbol \lambda + \left( \boldsymbol g_{1:N-K}^T -\boldsymbol g^T \frac{1}{N} \boldsymbol 1_N \boldsymbol 1^T_{N-K} \right )\boldsymbol \lambda + \frac{1}{2N} |\boldsymbol 1^T_N \boldsymbol g|^2 \\ & = -\frac{1}{2} \boldsymbol \lambda^T \left( \boldsymbol I - \frac{1}{N} \boldsymbol 1_{N-K} \boldsymbol 1^T_{N-K} \right) \boldsymbol \lambda + \left( \boldsymbol g_{1:N-K}^T \left( \boldsymbol I - \frac{1}{N} \boldsymbol 1_{N-K} \boldsymbol 1^T_{N-K} \right) - \boldsymbol g_{N-K+1:N}^T \frac{1}{N} \boldsymbol 1_{K} \boldsymbol 1^T_{N-K} \right) \boldsymbol \lambda \\ & \ \ \ \ \ \ + \frac{1}{2N} |\boldsymbol 1^T_N \boldsymbol g|^2 \end{aligned}$

令 $\boldsymbol B = \boldsymbol I - \frac{1}{N} \boldsymbol 1_{N-K} \boldsymbol 1^T_{N-K} \in \mathbb R^{(N-K) \times (N-K)}$ , $\boldsymbol C= \boldsymbol 1_{K} \boldsymbol 1^T_{N-K} \in \mathbb R^{K \times (N-K)}$ ，则 $h(\boldsymbol \lambda): \mathbb R^{N-K} \rightarrow \mathbb R$ 可以写为
$\begin{aligned} h(\boldsymbol \lambda) &= -\frac{1}{2} \boldsymbol \lambda^T \boldsymbol B \boldsymbol \lambda + \boldsymbol g_{1:N-K}^T \boldsymbol B \boldsymbol \lambda - \frac{1}{N} \boldsymbol g_{N-K+1:N}^T \boldsymbol C \boldsymbol \lambda + \frac{1}{2N} |\boldsymbol 1^T_N \boldsymbol g|^2 \end{aligned}$

最终，我们可以把对偶问题写为：

$\begin{aligned} & \max_{\boldsymbol \lambda \in \mathbb R^{N-K}} -\frac{1}{2} \boldsymbol \lambda^T \boldsymbol B \boldsymbol \lambda + \boldsymbol g_{1:N-K}^T \boldsymbol B \boldsymbol \lambda - \frac{1}{N} \boldsymbol g_{N-K+1:N}^T \boldsymbol C \boldsymbol \lambda + \frac{1}{2N} |\boldsymbol 1^T_N \boldsymbol g|^2 \\ \text{subject to} & \\ & \boldsymbol \lambda \geq 0 \end{aligned}$

进一步，我们分析矩阵 $\boldsymbol B$ 和 $\boldsymbol C$ 的相关性质。令 $\epsilon = K/N$ ， $\boldsymbol q_1 = \frac{1}{\sqrt{N-K}}$ 则 $\boldsymbol B$ 可以写为
$\begin{aligned} \boldsymbol B & = \boldsymbol I - \frac{1}{N} \boldsymbol 1_{N-K} \boldsymbol 1^T_{N-K} \\ &=\boldsymbol I - (1-\epsilon) \boldsymbol q_1 \boldsymbol q_1^T \end{aligned}$

$\boldsymbol B^{2} = \boldsymbol I - (1-{\epsilon}^2) \boldsymbol q_1 \boldsymbol q_1^T$
$\boldsymbol B^{-1} = \boldsymbol I - (1-\frac{1}{\epsilon}) \boldsymbol q_1 \boldsymbol q_1^T$
$\boldsymbol B^{\frac{1}{2}} = \boldsymbol I - (1-\sqrt{\epsilon}) \boldsymbol q_1 \boldsymbol q_1^T$
$\boldsymbol B^{-\frac{1}{2}} = \boldsymbol I - (1-\frac{1}{\sqrt{\epsilon}}) \boldsymbol q_1 \boldsymbol q_1^T$

因为 $\boldsymbol C$ 是一个 $\times (N-K)$ 的全1矩阵，我们可以得到
$\begin{aligned} \boldsymbol {BC}^T = (1-\epsilon) \boldsymbol C^T \\ \boldsymbol B^{-\frac{1}{2}} \boldsymbol {C}^T = (1 + \frac{1}{1+ \frac{1}{\sqrt{ \epsilon}}}) \boldsymbol C^T \end{aligned}$

尝试
$\begin{aligned} \nabla_{\boldsymbol \lambda}h &= - \boldsymbol B^{\frac{1}{2}} \boldsymbol \lambda + \boldsymbol B \boldsymbol g_{1:N-K} - \frac{1}{N} \boldsymbol C^T \boldsymbol g_{N-K+1:N} \\ &= - \boldsymbol B^{\frac{1}{2}} \boldsymbol \lambda + \left[ \boldsymbol B, -\frac{1}{N} \boldsymbol C^T \right] \boldsymbol g \end{aligned}$

如果令 $\nabla_{\boldsymbol \lambda}h=0$ ，则
$\begin{aligned} \boldsymbol \lambda &= \boldsymbol B^{-\frac{1}{2}} \left[ \boldsymbol B, -\frac{1}{N} \boldsymbol C^T \right] \boldsymbol g \\ &= \left[ \boldsymbol B^{-\frac{1}{2}}, -\frac{1}{N} \boldsymbol B^{-\frac{1}{2}} \boldsymbol C^T \right] \boldsymbol g \\ &= \left[ \boldsymbol B^{-\frac{1}{2}}, -\frac{1}{N}(1 + \frac{1}{1+ \frac{1}{\sqrt{ \epsilon}}}) \boldsymbol C^T \right] \boldsymbol g \end{aligned}$

因为 $\boldsymbol g \sim \mathcal N(\boldsymbol 0, \boldsymbol I_N)$ ，令 $\kappa(\epsilon)=(1 + \frac{1}{1+ \frac{1}{\sqrt{ \epsilon}}})$ ，我们可以计算得到 $\boldsymbol \lambda$ 的协方差矩阵
$\begin{aligned} \boldsymbol \Sigma_{\boldsymbol \lambda} &= \left[ \boldsymbol B^{-\frac{1}{2}}, -\frac{1}{N} \kappa(\epsilon) \boldsymbol C^T \right] \left[ \boldsymbol B^{-\frac{1}{2}}, -\frac{1}{N} \kappa(\epsilon) \boldsymbol C^T \right]^T \\ &= \boldsymbol B^{-1} + \frac{1}{N^2} \kappa(\epsilon)^2 \boldsymbol C^T \boldsymbol C \\ &= \boldsymbol B^{-1} + \frac{1}{N^2} \kappa(\epsilon)^2 \boldsymbol 1_{N-K} \boldsymbol 1_{K}^T \boldsymbol 1_{K} \boldsymbol 1^T_{N-K} \\ & = \boldsymbol B^{-1} + \kappa(\epsilon)^2 \frac{K(N-K)}{N^2} \frac{\boldsymbol 1_{N-K}}{\sqrt(N-K)} \frac{\boldsymbol 1^T_{N-K}}{\sqrt(N-K)} \\ & = \boldsymbol B^{-1} + \kappa(\epsilon)^2 \epsilon(1-\epsilon) \frac{\boldsymbol 1_{N-K}}{\sqrt(N-K)} \frac{\boldsymbol 1^T_{N-K}}{\sqrt(N-K)} \\ & = \boldsymbol I_{N-K} -\left( 1 - \frac{1}{\epsilon} - \epsilon (1- \epsilon ) \kappa^2(\epsilon) \right ) \boldsymbol q_1 \boldsymbol q^T_1 \end{aligned}$

原问题：
$\begin{aligned} & \min_{\boldsymbol x} \frac{1}{2} \left \Vert \boldsymbol x - \boldsymbol g \right \Vert^2 \\ \text{subject to} & \\ & \boldsymbol e^T_i \boldsymbol x \leq 0, \ \ \ \ i = 1, \cdots, N-K \\ & \boldsymbol 1^T \boldsymbol x =0 \end{aligned}$

对偶问题：
$\begin{aligned} & \max_{\boldsymbol \lambda \in \mathbb R^{N-K}} -\frac{1}{2} \boldsymbol \lambda^T \boldsymbol B \boldsymbol \lambda + \boldsymbol g_{1:N-K}^T \boldsymbol B \boldsymbol \lambda - \frac{1}{N} \boldsymbol g_{N-K+1:N}^T \boldsymbol C \boldsymbol \lambda + \frac{1}{2N} |\boldsymbol 1^T_N \boldsymbol g|^2 \\ \text{subject to} & \\ & \boldsymbol \lambda \geq 0 \end{aligned}$