本文主要是介绍【最优化方法】无约束非线性函数,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
向量投影证明
b 1 = d ∗ a 1 ∣ a 1 ∣ d = ∣ a 2 ∣ ∗ c o s θ c o s = ( a 2 , a 1 ) ∣ a 2 ∣ ∣ a 1 ∣ b_1 = d * \frac{a_1}{|a_1|} \\ d = |a_2| * cos\theta \\ cos = \frac{(a_2,a_1)}{|a_2||a_1|} b1=d∗∣a1∣a1d=∣a2∣∗cosθcos=∣a2∣∣a1∣(a2,a1)
由上面3个式子最终得到
b 1 = ( a 2 , a 1 ) ( a 1 , a 1 ) a 1 b1 = \frac{(a_2,a_1)}{(a_1,a_1) } a_1 b1=(a1,a1)(a2,a1)a1
施密特正交化
我们想要构造正交的基坐标系,我们希望各个坐标最好是能够互相正交的,我们让
b 1 = a 1 b_1 = a_1 b1=a1
另一个坐标应该是 b 2 b_2 b2,这个坐标可以根据向量的运算得到
b 2 = a 2 − b 1 b 1 = a 2 , b 1 ( b 1 , b 1 ) b 1 b_2 = a_2 - b_1 \\ b_1 = \frac{a_2,b_1}{(b_1,b_1)} b1 b2=a2−b1b1=(b1,b1)a2,b1b1
拓展到高维度也是同样道理,具体可以参考施密特正交化高维度的方法。
最速下降法
二次型
二次型是一个从向量到标量的函数:
f ( x ) = 1 2 x T A x − b x + c f(x) = \frac{1}{2} x^{T} A x - bx + c f(x)=21xTAx−bx+c
它的导数是:
A x − b = 0 A x = b Ax-b = 0 \\ Ax = b Ax−b=0Ax=b
我们可以将计算 A x = b Ax= b Ax=b转为计算二次型的最值问题。
上图为不同的 A 对 f(x) 的图像的影响。(a)正定矩阵的二次型;(b)负定矩阵的二次型;©奇异矩 阵和非正定矩阵的二次型;(d)不定矩阵的二次型:此时解是一个鞍点,梯度法和 CG 均无法处理该问题。
下降方向
最速下降法也就是梯度法,其中梯度是函数值变化最大的方向。最终通过求导的方式来确定步长。
d = − ∇ f ( x ) x i + 1 = x i + α d d = - \nabla f(\bold x) \\ x_{i+1} = x_i + \alpha d \\ d=−∇f(x)xi+1=xi+αd
证明垂直和最佳步长
现在我们已经确定了下降方向,接下来我们要确定下降的步长 α \alpha α, 步长我们我们使用精准的公式法进行计算。我们令函数为关于
ψ ( α ) = f ( x i + 1 ) ∇ ψ ( α ) = ∂ f ( x i + 1 ) ∂ α = ∂ f ( x i + 1 ) ∂ x i + 1 ∂ x i + 1 ∂ α = ( A x i + 1 − b ) d i = d i + 1 d i = 0 \psi(\alpha) = f(x_{i+1}) \\ \\ \nabla \psi(\alpha)=\frac{\partial f(x_{i+1})}{\partial \alpha} = \frac{\partial f(x_{i+1})}{\partial x_{i+1}} \frac{\partial x_{i+1}}{\partial \alpha} = (A\bold x_{i+1} -b) \bold d_i = d_{i+1} d_i = 0 ψ(α)=f(xi+1)∇ψ(α)=∂α∂f(xi+1)=∂xi+1∂f(xi+1)∂α∂xi+1=(Axi+1−b)di=di+1di=0
所以证明了两次的搜索方向是互相垂直的。下面将计算出 α \alpha α的具体数值:
d i + 1 d i = ( A x i + 1 − b ) T d = ( A ( x i + α d ) − b ) T d i = ( A x i + α A d i − b ) T d i = ( A x i − b + α A d i ) T d i = ( − d i + α A d i ) T d i = − d i T d i + α d i T A d i = 0 \bold d_{i+1} \bold d_i \\ = (A\bold x_{i+1} - b)^T \bold d \\ = (A(x_i + \alpha d) - b)^T d_i \\ = (Ax_i + \alpha A d_i -b)^T d_i \\ = (Ax_i -b + \alpha A d_i)^Td_i \\ = ( -d_i + \alpha A d_i)^T d_i \\= -d_i ^T d_i + \alpha d^T_i A d_{i} =0 di+1di=(Axi+1−b)Td=(A(xi+αd)−b)Tdi=(Axi+αAdi−b)Tdi=(Axi−b+αAdi)Tdi=(−di+αAdi)Tdi=−diTdi+αdiTAdi=0
化简得到
α = d i T d i d i T A d i \alpha = \frac{d_i^Td_i}{d_i^TAd_i} α=diTAdidiTdi
共轭梯度下降
这篇关于【最优化方法】无约束非线性函数的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!