本文主要是介绍Linear Regression 的闭式解以及梯度下降方法【机器学习】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
(胡乱写的,仅供自己学习)
机器学习的第一次实验是线性回归的闭式解以及梯度下降。
一、闭式解
闭式解的原理很简单,就是损失函数(Loss Function)进行求导,当导数等于零的时候就是损失函数值最小的时候,这时就可以求出参数了。
我们采用如下的损失函数:
对其进行求导:
当导数等于零时,
w 即我们所求的参数矩阵。
二、梯度下降
梯度就是导数,对损失函数的求导。
在数分中,梯度意味着函数值增加最快的方向。所以要让损失函数值减小得最快,只需要取反方向就好。那么应该让自变量变化多少呢?或者说让自变量变化多快?变化得过快就会导致自变量直接越过最优解得位置。或者还有回来得可能?答案是没有。自变量会在最优解得附件不断徘徊而无法变成最优解。所以自变量变化的速度就需要控制得慢一点了。但是如果太慢了呢?那会导致自变量到达最优解需要的时间和计算机的消耗都会变得很大。所以又需要控制得快一点了。那么问题是这个自变量变化的速度应该多快呢?具体问题具体分析。这个速度就是实际应用的时候应该去调的参数了。
有个比喻就是下山,具体还是看这个博客吧(懒得写了)(42条消息) 机器学习-梯度下降算法原理及公式推导_taoKingRead的博客-CSDN博客_梯度下降公式
至于说,全批量梯度下降的方法,随机梯度下降方法和小批量梯度方法的区别到底在哪里?答案是在于样本的选择。随机梯度只选择了一个样本,小批量顾名思义就是选部分样本,全批量就是选全部样本。
为什么不用闭式解就好,还有这个梯度方法?因为计算机在求解指数函数,对数函数之类的函数的闭式解时效果不是很好,计算机在计算这些函数的时候采用的时近似求解的方法,比如泰勒展开式,所花的时间和计算资源很大。然后就有了梯度下降的方法。
这篇关于Linear Regression 的闭式解以及梯度下降方法【机器学习】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!