向毕业妥协系列之机器学习笔记:构建ML系统(三)

2023-10-22 23:59

本文主要是介绍向毕业妥协系列之机器学习笔记:构建ML系统(三),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

一.机器学习开发的迭代

二.误差分析

三.添加更多数据

四.迁移学习

五.机器学习项目的完整周期


一.机器学习开发的迭代

然后我们以识别垃圾电子邮件为例来讲解一下这个过程

如上图,结合英文看,右侧是一封电子邮件,咱们从英语字典里把最常用的10000个单词取出来,然后输入数据就是一个有10000个特征的向量,遍历邮件,出现了哪个单词,单词在x中的对应位置就置为1。另一种方式是不止置为1,而是记录对应的那个单词的出现次数。当然吴佬说置为1效果就很不错。

然后在我们开发的过程中,肯定还会遇到很多问题,需要咱们具体问题具体分析。

二.误差分析

就选择下一步要做什么来而言,偏差和方差的重要性是第一位的,误差分析是第二位的。

错误分析需要咱们手动来实现,如果数量比较多,比如验证集里有5000个训练示例,其中1000个被错误分类了,那么咱们可以从这1000个当中抽样100个来分析。

三.添加更多数据

获取大量的数据可能耗时,昂贵。有一种方法时基于已有的训练数据来新增训练数据,“数据增强”。

比如把带有字母A的图片进行旋转,放大,缩小,扭曲等操作,新生成新的图片,但这仍然代表字母A。

同样的,语音识别也可以应用这种技术,即给真实数据添加一点噪音形成新的数据。当然对现有数据进行修改和添加噪声等不是随意的操作,而是有针对性的,并且要检测的数据相似。

另一种新增数据的方法是“数据合成”。

传统的机器学习模型和现在的侧重点对比:

四.迁移学习

迁移学习可以把别的模型的部分参数直接拿到自己的模型中来用。看一下下面的例子就明白了。

                                                                                                                           注:fine tune:微调

上面的例子场景是现在我们想识别手写数字,但是手写数字的图片却不多,但是猫,狗,车和人的图片(1000个种类,所以最后输出层有1000个神经元,共一百万张图片)却充足,所以上图上面的那个模型是识别猫,狗,车,人等的模型;然后咱们现在要构建手写数字识别的模型,看到上图下面那个模型,也是五层的神经网络,前四层咱们直接把上面的那个模型已经训练好的前四层的参数直接拿过来用,然后现在是识别0~9,所以输出层有10个神经元,现在咱们只需要训练下面的这个模型的输出层的参数即可,前四层就不用训练了(因为直接借用了上面模型的前四层参数)。这时候我们需要的训练集大小就可以很小了,比如50张手写体数字的图片?So magic!

这个我们也有两种选择:

  1. 只训练手写体识别模型的输出层的参数
  2. 训练神经网络中所有的参数

 但是一般项目中是选择第二种方式,这就相当于给神经网络的前四层赋了一些初始值,虽然普通的神经网络训练的时候也会有初始值,但是迁移学习方式的这些初始值是已经经过了训练的初始值(虽然不是一个模型,但是难免还是会有一些共性存在)

现在很多研究者将他们的已经训练好的神经网络发布到网上,咱们只要把自己的输出层替换掉神经网络里的输出层即可,真的很适合迁移学习,极大地提高了我们的构建效率。

为什么迁移学习这么神奇呢?检测猫狗的模型竟然可以应用到手写体数字识别上,请看下面

检测猫狗的模型的前几层的参数已经学会了检测图像的边缘,角点,曲线,基本形状和一些非常通用的图像特征,这对其他很多计算机视觉任务都有用,如手写体数字识别。

 

由上图可知做迁移学习时,迁移过来的模型的输入数据的类型格式什么的要和自己输入的数据类型格式什么的一致才行。

五.机器学习项目的完整周期

下面来介绍一下生产环境下的部署:

这篇关于向毕业妥协系列之机器学习笔记:构建ML系统(三)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/264415

相关文章

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Linux系统中卸载与安装JDK的详细教程

《Linux系统中卸载与安装JDK的详细教程》本文详细介绍了如何在Linux系统中通过Xshell和Xftp工具连接与传输文件,然后进行JDK的安装与卸载,安装步骤包括连接Linux、传输JDK安装包... 目录1、卸载1.1 linux删除自带的JDK1.2 Linux上卸载自己安装的JDK2、安装2.1

一文详解如何从零构建Spring Boot Starter并实现整合

《一文详解如何从零构建SpringBootStarter并实现整合》SpringBoot是一个开源的Java基础框架,用于创建独立、生产级的基于Spring框架的应用程序,:本文主要介绍如何从... 目录一、Spring Boot Starter的核心价值二、Starter项目创建全流程2.1 项目初始化(

使用Java实现通用树形结构构建工具类

《使用Java实现通用树形结构构建工具类》这篇文章主要为大家详细介绍了如何使用Java实现通用树形结构构建工具类,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录完整代码一、设计思想与核心功能二、核心实现原理1. 数据结构准备阶段2. 循环依赖检测算法3. 树形结构构建4. 搜索子

Linux系统之主机网络配置方式

《Linux系统之主机网络配置方式》:本文主要介绍Linux系统之主机网络配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、查看主机的网络参数1、查看主机名2、查看IP地址3、查看网关4、查看DNS二、配置网卡1、修改网卡配置文件2、nmcli工具【通用

Linux系统之dns域名解析全过程

《Linux系统之dns域名解析全过程》:本文主要介绍Linux系统之dns域名解析全过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、dns域名解析介绍1、DNS核心概念1.1 区域 zone1.2 记录 record二、DNS服务的配置1、正向解析的配置

使用Python和python-pptx构建Markdown到PowerPoint转换器

《使用Python和python-pptx构建Markdown到PowerPoint转换器》在这篇博客中,我们将深入分析一个使用Python开发的应用程序,该程序可以将Markdown文件转换为Pow... 目录引言应用概述代码结构与分析1. 类定义与初始化2. 事件处理3. Markdown 处理4. 转

Linux系统中配置静态IP地址的详细步骤

《Linux系统中配置静态IP地址的详细步骤》本文详细介绍了在Linux系统中配置静态IP地址的五个步骤,包括打开终端、编辑网络配置文件、配置IP地址、保存并重启网络服务,这对于系统管理员和新手都极具... 目录步骤一:打开终端步骤二:编辑网络配置文件步骤三:配置静态IP地址步骤四:保存并关闭文件步骤五:重

Java进阶学习之如何开启远程调式

《Java进阶学习之如何开启远程调式》Java开发中的远程调试是一项至关重要的技能,特别是在处理生产环境的问题或者协作开发时,:本文主要介绍Java进阶学习之如何开启远程调式的相关资料,需要的朋友... 目录概述Java远程调试的开启与底层原理开启Java远程调试底层原理JVM参数总结&nbsMbKKXJx

Windows系统下如何查找JDK的安装路径

《Windows系统下如何查找JDK的安装路径》:本文主要介绍Windows系统下如何查找JDK的安装路径,文中介绍了三种方法,分别是通过命令行检查、使用verbose选项查找jre目录、以及查看... 目录一、确认是否安装了JDK二、查找路径三、另外一种方式如果很久之前安装了JDK,或者在别人的电脑上,想