本文主要是介绍从rookie到基佬~013:损失函数(分析),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
高产似母猪
结论:
~在机器学习中,所有的机器学习算法都或多或少的依赖于对目标函数最大化或者最小化的过程,我们常常把最小化的函数称为损失函数,它主要用于衡量机器学习模型的预测能力。
分析
~在机器学习的任务中,损失函数的选取十分重要。针对不同问题,应该选取最合适的损失函数。充分理解不同类型损失函数的特性有助于我们求解实际应用问题,在任务中得到更好的优化结果。这也有助于我们理解机器学习的本质,以及它本后的数学支撑,为进一步的研究做好准备。
机器学习分为四大块,分别是 classification (分类), regression (回归), clustering (聚类), dimensionality reduction (降维)。
~这里着重分析分类和回归问题。无论是分类还是回归,都是想建立一个预测模型 ,给定一个输入 , 可以得到一个输出 。不同的只是在分类问题中, 输出是离散的; 而在回归问题中输出是连续的。所以总的来说,两种问题的学习算法都很类似。所以在这个图谱上,我们看到在分类问题中用到的学习算法,在回归问题中也能使用。分类问题最常用的学习算法包括 SVM (支持向量机) , SGD (随机梯度下降算法), Bayes (贝叶斯估计), Ensemble, KNN 等。而回归问题也能使用 SVR, SGD, Ensemble 等算法,以及其它线性回归算法。
机器学习的三要素就是:表示,评估和优化。
表示指的是将样本空间映射到一个合适的特征空间,评估指的是模型在数据上表现的量化形式,我们选取合适的函数来表示什么样子的模型是好的,性能度量就是评估。在前两步都完成了以后,最后要做的就是优化,就是对评估函数进行求解,找出最合适的解,来确定最终的模型。
所谓的性能度量(performance measure)就是关于真实值和预测值的关系,真实值与预测值越接近,或者说真实的分布与预测分布越接近,性能越好。对于回归问题,我们可以选用均方误差(mean squared error),绝对误差(absolute Loss),决定系数(coefficient of determination )以及Huber Loss来度量模型的性能,对于分类问题,我们可以用准确率,错误率,或者得到混淆矩阵,进一步得到查准率(precision)、查全率(recall)以及P-R曲线和ROC曲线。
我们可以很容易想到,损失函数(Loss function)也是这样一回事情,真实值与预测值差别越大,Loss越大,我们的优化的目标就是减小Loss。从评估的角度来说,损失函数和性能度量所起到的作用是相同的,那么我们为什么既要有损失函数,也有要性能评估呢?常见的误差如下面要介绍的均方误差,既可以被当作性能度量,同时也是回归问题的损失函数。但在更多的问题中,我们会发现,我们往往会为了减小模型的错误率,并不直接优化错误率,而是会优化另一个函数。比如分类问题,我们采用logistic回归后,我们会优化对数似然。
参考资料链接:https://blog.csdn.net/github_38140310/article/details/85061849
如有错误,欢迎各位大侠莅临指正,顺颂 时祺。
这篇关于从rookie到基佬~013:损失函数(分析)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!