干货 :如何选择适当的机器学习算法

2024-04-28 13:32

本文主要是介绍干货 :如何选择适当的机器学习算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

选择适当的机器学习算法

原文: Choosing the Right MachineLearning Algorithm

来源: https://hackernoon.com/choosing-the-right-machine-learning-algorithm-68126944ce1f


导读:

  1. 在决定使用哪种算法时,必须考虑数据的类型和种类。一些算法只需要少量样本,另一些则需要大量样本。某些算法只能处理特定类型的数据。例如,朴素贝叶斯算法与分类数据相得益彰,但对缺失数据完全不敏感。

  2. 缺失数据对某些模型的影响超过了对其他模型的影响。即便是对能够处理缺失数据的模型来说,它们也可能受到影响(某些变量的缺失数据会导致糟糕的预测)。

  3. 为现实问题设计恰当的解决方案不仅仅是一个应用数学问题,还需要考虑商业需求、规章制度、利益相关者的关切和相当多的专业知识。在解决一个机器问题时,结合和平衡这几个方面至关重要。


原文翻译:

机器学习是艺术和科学的结合。没有哪种机器学习算法能解决所有的问题。有几个因素能影响你选择机器学习算法的决定。


有些问题非常具体,需要独特的方法去解决。例如,推荐系统是十分常见的机器学习算法,解决的是非常具体的问题。而其他问题非常开放,需要试错的方法去解决。监督学习、分类和回归都是非常开放的。它们可以用于异常检测,或者用来打造更通用的预测模型。我们在选择机器学习算法时所做的一些决定,更多地取决于商业决策,而不是优化或者算法的技术面。在下文中,我们将讨论有助于缩小机器学习算法选择范围的一些因素。


数据科学过程

在开始审视不同的机器学习算法之前,你必须对你的数据、面临的问题和局限有一个清晰的认识。


了解你的数据

在决定使用哪种算法时,必须考虑数据的类型和种类。一些算法只需要少量样本,另一些则需要大量样本。某些算法只能处理特定类型的数据。例如,朴素贝叶斯算法与分类数据相得益彰,但对缺失数据完全不敏感。


你必须:

了解你的数据

1. 着眼汇总统计数据和可视化数据

  •  Percentiles有助于识别大部分数据的范围

  •  平均数(Average)和中位数(Medians)能描述集中趋势

  •  相关系数(Correlations)能指明紧密的关系

2. 数据可视化

  •  箱形图(Box Plots)能识别离群值

  •  密度图(Density Plots)和直方图(Histograms)显示了数据的分布

  •  散点图(Scatter Plots)能描述二元关系


整理你的数据

1. 处理缺失值。缺失数据对某些模型的影响超过了对其他模型的影响。即便是对能够处理缺失数据的模型来说,它们也可能受到影响(某些变量的缺失数据会导致糟糕的预测)。

2. 选择如何处理离群值

  •  离群值(Outliers)在多维数据中十分常见。

  •  某些模型受离群值的影响要小于其他模型。通常来说,决策树模型受离群值的影响较小。但回归模型或者其他使用等式的模型肯定会受离群值的影响。

  •  离群值是糟糕的数据收集所致,或者是真实的极值。

3. 数据是否需要汇总


增强你的数据

1. 特征工程是从原始数据到建模可用数据的过程。这有几个目的:

  •  使模型更易于解释(比如分箱)

  •  抓取更复杂的关系(比如神经网络)

  •  减少数据冗余和维度(比如主成分分析)

  •  重新缩放变量(比如标准化或正则化)


2. 不同的模型可能对特征工程有不同的要求。一些要求已经内置到特征工程中。


问题归类

然后是问题归类。这分两步。

1. 按输入数据归类:

  •  如果是标签数据,那就是监督学习问题。

  •  如果是无标签数据,想找到结构,那就是非监督学习问题。

  •  如果想通过与环境互动来优化一个目标函数,那就是强化学习问题。

 

2. 按输出数据归类:

  •  如果模型的输出数据是一个数字,那就是回归问题。

  •  如果模型的输出数据是一个类,那就是分类问题。

  •  如果模型的输出数据是一组输入数据,那就是聚类问题。

  •  是不是想检测一个异常?那就是异常检测。


了解你的限制

  •  数据存储能力如何?根据系统的存储能力,你可能无法存储大量的分类/回归模型或者待聚类的大量数据。例如,嵌入式系统就是这样。

  •  是否必须迅速作出预测?在实时应用中,尽可能快地作出预测显然非常重要。例如,在自动驾驶时,必须尽可能快地对道路标志进行分类,以免发生事故。 

  • 是否必须迅速学习?在某些情况下,快速训练模型是必需的。有时,你需要在匆忙之中用不同的数据集迅速更新你的模型。


找到可用的算法

你已经对自己的处境有了一个清晰的认识,接下来是识别适用的、利用手中工具可以实际执行的算法。影响模型选择的因素包括:

  •  模型是否符合商业目标

  •  模型需要多大程度的预处理

  •  模型的准确性

  •  模型的可解释性

  •  模型的速度:建立模型需要多久,模型作出预测需要多久

  •  模型的扩展性


影响算法选择的一个重要标准是模型的复杂性。一般来说,更复杂的模型:

  •  需要更多的特征来学习和预测(比如使用两个特征VS使用10个特征来预测一个目标)

  •  需要更复杂的特征工程(比如使用多项式项、交互关系或主成分)

  •  需要更大的计算开销(比如1颗决策树VS由100颗决策树组成的随机森林)

 

此外,同一种机器学习算法会因为参数的数量或者对某些超参数的选择而变得更加复杂。例如:

  •  一个回归模型可能拥有更多的特征或者多项式项和交互项。

  •  一颗决策树可能拥有更大或更小的深度。


使同一算法更复杂,这会增加过拟合的几率。

640?wx_fmt=png


常用的机器学习算法

线性回归

这可能是最简单的机器学习算法。当你想计算某个连续值的时候,可以使用回归算法,而分类算法的输出数据是类。所以,每当你要预测一个正在进行当中的过程的某个未来值时,你可以使用回归算法。但线性回归在特征冗余(也就是存在多重共线性)的情况下会不稳定。

 

线性回归的几个用例:

  •  是时候从一个地方到另一个地方

  •  预测特定产品在下个月的销量

  •  血液酒精含量对身体协调性的影响

  •  预测每月礼品卡销量和改善每年收入预期


逻辑回归

逻辑回归进行二元分类,所以输出数据是二元的。这种算法把非线性函数(sigmoid)应用于特征的线性组合,所以它是一个非常小的神经网络实例。

逻辑回归提供了模型正则化的很多方法,不必担心特征是否相关,就像使用朴素贝叶斯算法的时候一样。与决策树和支持向量机相比,逻辑回归提供了出色的概率解释,能轻易地用新数据来更新模型。如果想建立一个概率框架,或者希望以后将更多的训练数据迅速整合到模型中,可以使用逻辑回归。这种算法还能帮助你了解预测背后的贡献因素,不是一种黑箱方法。


逻辑回归的几个用例:

  •  预测客户流失

  •  信用评分和欺诈检测

  •  衡量营销活动的效果


决策树

人们很少使用单一的决策树,但与其他很多决策树结合起来,就能变成非常有效的算法,比如随机森林和梯度提升树。


决策树可以轻松地处理特征的交互关系,并且是非参数化的,所以不必担心离群值或者数据是否线性可分。缺点是不支持在线学习,所以在新样本到来时,必须重建决策树。另一个缺点是容易过拟合,但随机森林和提升树等集成方法可以克服这一缺点。决策树还会占用很多内存(特征越多,决策树就可能越深、越大)。

决策树是帮助你在几个行动方案之间作出选择的出色工具。

  •  投资决策

  •  客户流失

  •  银行贷款违约人

  •  自建VS购买决策

  •  销售线索资质


K-means

有时,你不知道任何标签,你的目标是根据对象的特征赋予标签。这被称为聚类任务。聚类算法的一个用例是根据某些共同属性,将一大群用户分组。


如果在你的问题陈述中,存在“这是如何组织的”等疑问,或者要求将某物分组或聚焦于特定的组,那么你应该采用聚类算法。


 K-Means的最大缺点,在于必须事先知道你的数据中将有多少个簇。因此,这可能需要进行很多的尝试,来“猜测”簇的最佳K值。


主成分分析(PCA)

PCA能降维。有时,数据的特征很广泛,可能彼此高度相关,在数据量大的情况下,模型容易过拟合。这时可以使用PCA。


 PCA大受欢迎的一个关键,在于除了样本的低维表示以外,它还提供了变量的同步低维表示。同步的样本和变量表示提供了以可视方式寻找一组样本的特征变量。


支持向量机(SVM)

SVM是一种监督学习方法,被广泛用于模式识别和分类问题(前提是数据只有两类)。


SVM的优点是精度高,对避免过拟合有很好的理论保障,而且只要有了适当的核函数,哪怕数据在基本特征空间中不是线性可分的,SVM也能运行良好。在解决高维空间是常态的文本分类问题时,SVM特别受欢迎。SVM的缺点是消耗大量内存、难以解释和不易调参。

 

SVM在现实中的几个应用:

  •  探测常见疾病(比如糖尿病)患者

  •  手写文字识别

  •  文本分类——按话题划分的新闻报道

  •  股价预测


朴素贝叶斯

这是一种基于贝叶斯定理的分类方法,很容易构建,对大数据集特别有用。除了具有简单的优点以外,朴素贝叶斯甚至好于某些高度复杂的分类方法。在CPU和内存资源是限制因素的情况下,朴素贝叶斯也是很好的选择。


朴素贝叶斯超级简单,只需要做些算术即可。如果朴素贝叶斯关于条件独立的假设确实成立,那么朴素贝叶斯分类器将比逻辑回归等判别模型更快地收敛,因此你需要的训练数据更少。即使假设不成立,朴素贝叶斯分类器在实践中仍然常常表现不俗。如果你需要的是快速简单且表现出色,朴素贝叶斯将是不错的选择。其主要缺点是学习不了特征间的交互关系。


朴素贝叶斯在现实中的几个应用:

  •  情感分析和文本分类

  •  推荐系统,比如Netflix和亚马逊

  •  把电子邮件标记为垃圾邮件或者非垃圾邮件

  •  面部识别


随机森林

随机森林包含多颗决策树。它能解决拥有大数据集的回归和分类问题,还有助于从众多的输入变量中识别最重要的变量。随机森林可扩展到任意维数,其表现通常是可接受的。遗传算法可扩展到任何维度以及对数据本身知之甚少的任何数据,微生物遗传算法实现起来代价最低、最简单。但随机森林的学习速度可能很慢(取决于参数化),而且不可能迭代地改进生成模型。

 

随机森林在现实中的几个应用:

  •  预测高风险患者

  •  预测制造业的零件故障

  •  预测贷款违约人


神经网络

神经网络包含神经元之间的连接权重。权重是平衡的,在学习数据点后继续学习数据点。所有权重被训练后,神经网络可以用来预测类或者量,如果发生了一个新的输入数据点的回归。用神经网络可以训练极其复杂的模型,它们能作为黑箱,不必在训练模型之前进行不可预测的、复杂的特征工程。再加上“深度方法”,即便是更加不可预测的模型也能被用来实现新的可能性。例如,利用深度神经网络,对象识别近期取得巨大进步。应用于非监督学习任务,比如特征提取,深度学习还能从原始图像或语音中提取特征,不需要太多的人类干预。

 

另一方面,神经网络非常难以解释说明,参数化极其令人头疼,而且非常耗费资源和内存。


Scikit速查表

scikit-learn提供了一张非常深入、清晰易懂的流程图,帮助你选择适当的算法,用起来非常方便。


640?wx_fmt=png


总结

通常来说,你可以参考以上内容,缩小算法选择的范围,但一开始很难知道哪个算法最适合你。最好是迭代筛选。把你的数据输入你认为可能是佳选择的机器学习算法,并行或依次运行这些算法,最后评估算法的表现,选出最好的那个。


最后,为现实问题设计恰当的解决方案不仅仅是一个应用数学问题,还需要考虑商业需求、规章制度、利益相关者的关切和相当多的专业知识。在解决一个机器问题时,结合和平衡这几个方面至关重要。能做到这一点的人才能创造最大的价值。

本次转自:品觉 微信公众号(pinjueche.com)

车品觉简介

畅销书《决战大数据》作者;国信优易数据研究院院长;红杉资本中国基金专家合伙人;浙江大学管理学院客席教授;全国信标委员;数据标准工作组副组长;美丽心灵基金会桑珠利民基金副主席。

原阿里巴巴集团副总裁,首任阿里数据委员会会长;现担任中国信息协会大数据分会副会长、中国计算机学会大数据专家委员会副主任、粤港信息化专家委员、中国计算数学学会第九届理事、清华大学教育指导委员(大数据项目)、浙江大学管理学院客席教授等职。

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。

商务联系qq:365242293 


更多相关知识请回复:“ 月光宝盒 ”;

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。640?wx_fmt=jpeg

这篇关于干货 :如何选择适当的机器学习算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/943385

相关文章

el-select下拉选择缓存的实现

《el-select下拉选择缓存的实现》本文主要介绍了在使用el-select实现下拉选择缓存时遇到的问题及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录项目场景:问题描述解决方案:项目场景:从左侧列表中选取字段填入右侧下拉多选框,用户可以对右侧

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

如何选择适合孤独症兄妹的学校?

在探索适合孤独症儿童教育的道路上,每一位家长都面临着前所未有的挑战与抉择。当这份责任落在拥有孤独症兄妹的家庭肩上时,选择一所能够同时满足两个孩子特殊需求的学校,更显得尤为关键。本文将探讨如何为这样的家庭做出明智的选择,并介绍星贝育园自闭症儿童寄宿制学校作为一个值得考虑的选项。 理解孤独症儿童的独特性 孤独症,这一复杂的神经发育障碍,影响着儿童的社交互动、沟通能力以及行为模式。对于拥有孤独症兄

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖