为你解析机器学习品酒步骤(附视频)

2024-04-14 00:58

本文主要是介绍为你解析机器学习品酒步骤(附视频),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

来源:TensorFlow

本文约2850建议阅读6钟。

本文讲述了实现机器学习中常见的七个步骤,让我们更加深入了解在机器学习内部,整个机制又是如何运作的。

不论是皮肤癌监测、黄瓜自动分拣还是检测故障电梯,机器学习都让计算机有了全新的能力。

但是在机器学习内部,整个机制又是如何运作的呢?我们先举一个简单的例子,然后由此详细解读机器学习从数据当中获得解答的整个过程。

请看 Yufeng 为大家带来的讲解:


视频时长约10分钟,建议WIFI环境下观看

我们先假设这样一个需求:建立一个能够回答面前这杯液体是啤酒还是红酒的问答系统。我们要建立的这一问答系统被称为“模型”,而此模型的建立过程被称为“训练”。训练的目的是创建出一个在绝大多数情况下能正确回答问题的精准模型。为了进行这样的训练,我们必须要搜集足够的数据,而这就是整个流程的起点。

红酒还是啤酒?


我们的数据要从一杯一杯的红酒和啤酒当中搜集。而它们汲取可数据之处颇多,诸如泡沫数量和酒杯的形状等特征都是搜集的重点。



此处,我们从中选取两个方面来搜集数据:酒水颜色(光波长)和酒精含量(浓度)。预期的效果就是通过这两项因子就分辨出两种酒水。后文中,我们会称“颜色”和“酒精浓度”为数据的“特征”。


好了,现在第一步就是到商店去买各式各样的啤酒和红酒,同时还需要淘一些测量所需的装备——测光波长的分光仪和测酒精浓度的液体比重仪。

搜集数据


一旦所有食(jiu)材(shui)和装备都齐全了,就进入了“七步走”的第一步:搜集数据。这一步至关重要,因为你所搜集的数据量和质量将决定最终形成的预测模型的好坏。比如我们的流程中,所采集的数据就是每一个样本的颜色(即透射光波长)和酒精浓度。



一种一种测完之后,大致会形成类似上述表格的数据。

数据准备


几个小时之后,我们搜集到了不少数据,接下来就要进入下一步骤:数据准备。这一步中,我们将会把数据导出到一个适当的地方,以备后期训练模型时使用。


首先将所有数据放在一起,然后将其顺序打乱。由于顺序不是判断酒水的依据,我们并不期望顺序影响到模型学习到的内容。换言之,我们判断一种酒是红的还是啤的,并不需要知道前一种或是接下来有什么酒出现。




这时,可以着手绘出可视化的数据分析结果,这些分析图将有助于你发现不同变量之间的潜在相关性,并且能帮你发现是否有数据失衡。比如,假若我们的数据中大量结果都表现出啤酒的特征,那么模型大多数时候都遇到了啤酒,所以它的推测也将倾向于啤酒。但是真实世界中,模型需要判断的啤酒和红酒的量很有可能是相同的,假若它按照训练的结果得出的大部分都是啤酒,那么它有不少时候都得出了错误的结论。


我们还需要将数据分成两部分。


  • 第一部分用于训练模型,它们将占全部数据中的绝大多数。

  • 另一部分则是用于评估模型的判断能力的。


显然我们不希望用于训练的数据被拿来检测模型,因为这些数据很可能被模型给直接记住了,答案脱口而出。这就好像你在考试里总不会出现平时的作业原题那样。有时我们得到的数据需要一些其他形式的调整和操作,比如去重、规范化和纠错等等,这些都需要在数据准备的过程当中完成。 而我们的这个问答系统训练用的数据并不需要进一步操作,所以现在进入下一环节。


选择模型


下一步就是要选择模型了。这些年,研究者和数据科学家研究出了很多很多的通用模型。其中不少都非常适用于图像数据,另有一些则适用于连续性数据(比如文本和音频),一些适用于数值型数据,另外的则擅长处理基于文本的数据。在我们的例子当中,由于仅仅只有两项特征,所以可以使用小型的线性分析模型,一种非常小但是又足够完成分析的模型。


训练模型


接下来就是整个机器学习过程中最重要的步骤了——训练模型。经过这一过程,我们的模型将会逐步提高判断酒水是红是啤的能力。



从某种程度上讲,这与一个人初学开车是类似的。一开始,他并不知道踏板、把手和按钮各有什么作用,但经过一系列的联系,并且在教练的纠(chou)正(ma)之后,他逐渐成长为合格的新手。经过多次磨练,他会越来越娴熟,直至成为秋名山车神一样的老司机。



我们会在自己的模型上进行一个小规模的训练。一条直线的方程是 y = m * x + b,x 是输入,m 是直线的斜率,b 是纵轴的截距,y 是直线上对应 x 的值。我们需要训练的值就是 m 和 b。由于整个表达式只有输出 y 和输入 x,所以只有该两个变量需要训练。



机器学习中,有多少特征就有多少个 m,而 m 的值通常都用一个矩阵来表达,我们用“W”标记以表示“weight”(权重)。类似的,我们将 b 也用矩阵表示,简记为“b”,也就是“biases”(偏差)。


训练的过程,将会给 W 和 b 一定的初始值,然后用这些值来尝试预测。如你所料,一开始的结果往往不符合要求,但我们可以通过与“应得结果”比较,并修改 W 和 b 来得到比较准确的预测。



上述过程将会重复进行,每一次迭代或者循环都被称为训练过程的“阶”。


我们再回头看看整个过程。一开始,我们好似随机画了一条线来分开红酒和啤酒。接下来,每一次循环,这条线都进行一定的移动,逐渐逼近那条理想的、假想的红酒和啤酒分界线。


评估模型


一旦训练完毕,我们就要对得到的模型进行评估。此时,早前我们留下的那一小部分数据就派上用场了。在评估中,我们使用之前从未使用过的数据来测试模型,得到输出并与正确的判定结果对比。这种方法能够让我们知道模型在遇到未接触的数据时的表现情况,同时也展示了模型在现实世界的表现。


推荐训练和评估所用的数据比例是 4:1 或 7:3。选取何种比例取决于原始数据集的规模。如果你的数据非常多,那么用于验证的数据可能就不需要那么多了。


参数微调


评估结束,你也许想要尝试着改善训练的成果,此时可以进行参数微调。在训练过程中,我们可能隐式使用了一些假设,而现在就回过头去验证这些假设或是改变它们的值。


举个例子,其中一个可行的调整是针对训练次数的。通过调整重复次数,我们可以一定程度提高模型的精度。



另外还有“学习频率”,会影响到每一次训练结束时相对上一次训练变化的程度。这些值都决定了我们最终模型的精度和训练耗时。


对于更加复杂的模型,初始条件对结果的影响也是非常大的。究竟是使用一系列 0 值还是一系列离散值作为初始值是引起这类影响的关键,而采用离散值则需要决定怎样的离散形式。


从前文的内容可见,训练的过程中我们需要考虑非常多的内容。并且,什么时候结束、什么程度算是“到火候了”都是需要考虑的问题,不然可能会出现反复纠结的情形。


这一类的参数往往被称为“超参数”,调整和优化它们更像是一种技巧而不是一种理论。这是一个实验性的过程,并且取决于你的数据集类型、模型种类和训练手段。


训练完毕、微调结束,你得到了满意的模型,那么是时候来实操了!


预测


机器学习是一个通过数据解决问题的过程,所以预测(或是推断)就是获取答案的关键一步。这也是实现机器学习价值的关键一步。



通过给出颜色(光波长)和酒精浓度,我们的模型将能够判断出你面前的是一杯红酒还是啤酒。


触类旁通


机器学习的强大之处在于它使得我们可以判断出酒的品类,而不需经过亲自品尝和人为判断。你可以将今天案例中的中心思想举一反三到其他的预测中,它们都遵循如下准则:


  • 搜集数据

  • 准备数据

  • 选择模型

  • 训练模型

  • 评估模型

  • 参数微调

  • 预测


这篇关于为你解析机器学习品酒步骤(附视频)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901697

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

流媒体平台/视频监控/安防视频汇聚EasyCVR播放暂停后视频画面黑屏是什么原因?

视频智能分析/视频监控/安防监控综合管理系统EasyCVR视频汇聚融合平台,是TSINGSEE青犀视频垂直深耕音视频流媒体技术、AI智能技术领域的杰出成果。该平台以其强大的视频处理、汇聚与融合能力,在构建全栈视频监控系统中展现出了独特的优势。视频监控管理系统EasyCVR平台内置了强大的视频解码、转码、压缩等技术,能够处理多种视频流格式,并以多种格式(RTMP、RTSP、HTTP-FLV、WebS

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss