本文主要是介绍为什么机器学习算法能工作---V2018/11/27,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
2018/11/27
很多讲解机器学习的书籍重点都放在算法的讲解上,很少去说明为什么机器学习可以工作。我觉得这之中的一本比较好的书就是《统计学习方法》了,这本书给我的印象很深刻,因为它让我从数学,或者说从统计学的角度理解了机器学习。
前两天找到了一篇博士的论文,它的题目就是“机器学习为什么能工作”,这个论文将机器学习比拟成一个搜索的框架。从第一感觉而言,这个说法我之前也遇见过,好像就是《统计学习方法》里面提到的。就比如说,假定我用了一个模型来进行解决问题,那么这个算法的后续过程就是从它所在的假设空间中去找寻各种参数来拟合,这就是一个搜索问题。这篇论文也提到了经典的统计学习的理论,统计学习的理论[1]的中心论点就是找到一个风险最低的函数,从我的角度来看,也算是一个搜索问题。(这其实也是一篇论文,1999年的)
这两篇文章中,可能是先入为主的思想,我更倾向于统计学习的理论。当然,我也有一些自己的理解,但个人能力毕竟有限,肯定是比不上前人;或者说,我自己的想法跟别人的是一样的。我感觉结果应该是后者。下面来说说我的理解。
机器学习的基础建立在训练数据集上,如果数据集选的好,或者说它的数量够多,那么他就可以整体上代表真实的总体样本。如此说来,如果是可以知道样本的整体分布,那岂不是就可以利用贝叶斯这种概率论上的方法来实现了。但贝叶斯方法假设了样本是正态分布(这一块需要进一步考究,是不是这个原因导致的贝叶斯方法的缺陷,这句话我在哪本书看过,但已经很久了。),它自身并不能满足需求。
各式各样的算法在训练数据集的支撑下,可以达到各种各样的效果。我们常说过拟合或者欠拟合,算法不就是一个拟合的过程(比如回归中常说拟合数据这个概念)。过拟合就是一种对数据粘合度太高的情况,那么是不是就可以这样理解,机器学习算法也是在粘合数据,但通过我们的控制,他可以对数据的粘合度不那么高,从而实现分类、预测等效果。这就应了那句话,机器学习就是从历史数据中学习,来预测未来的(对应于预测问题)。而从历史数据中学习到,称之为知识,我更倾向于使用规律的词来描述。
这些规律的表现形式各式各样,举一个最简单的例子,线性回归中得到的回归方程。算法的运作,就是求解出方程的参数。它展现在图像上,就是一条曲线切合着这些点,这就是规律。而其他的各种类型的模型,又采用着不同的方式来和这些数据点产生交互。在得到模型之后,我们只需要将要新测试的点嵌套其中,得到相应的输出。比较遗憾的是,在高维数据面前,可视化成为一个非常难的问题,也因此常用低维的数据来做演示。
机器学习算法工作为什么能工作?按照自上而下的分析法,上层,机器学习提供了一个大的框架,这个框架就是经常看到的那个训练、输出的图。而不同的算法,它的表现形式不一样,也因此再往下一层它的成果也不一样。但若把它当作一个黑盒子,它呈现出来的API是一样的。
总结
这篇随笔写的不好,没有写出有深度的东西,还是考虑问题不够全面,经验不够丰富。而且这个文章很干的两个原因,就是整体条理性不清晰,另外大片大片的文字让人无法回顾。后续还要修改。
参考文献
[1]V. N. Vapnik, “An overview of statistical learning theory,” IEEE Transactions on Neural Networks, vol. 10, no. 5, pp. 988–999, Sep. 1999.
这篇关于为什么机器学习算法能工作---V2018/11/27的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!