机器学习(前六关大总结)生动讲解+代码实例

2024-08-26 01:04

本文主要是介绍机器学习(前六关大总结)生动讲解+代码实例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

老粉都知道(还不点关注)我这机器学习已经有几天没更了,主要是最近忙碌比赛,所以时间紧张

那么我为大家总结一下,之前的机器学习知识点,让大家更好了解机器学习领域。

在此阅读前,感谢大家的关注和点赞。如果有疑问,可以评论区提问(看见包回的)

 本次从六个方面给大家进行总结,更加深透地理解机器学习

一.概念 (机器学习到底是什么东东??)

        机器学习,哎,一听名字就是:一个机器具有学习能力(机器学习我们,归纳总结,吸取教训)。更加通俗的讲法就是:机器通过大量数据去自动分析得到模型,并训练数据,去预测数据

比如,我上传了许多猫和狗的图片,让机器去自动分析,得到能够分辨猫狗的模型,再进行一定程度的训练,那么我们就可以判断一个动物是猫还是狗。 比如下面那个就是猫

 

 刚刚提到我们要有数据,数据包含特征值和目标值(可有可无)。特征值就是猫或者狗的特征,用来能够判断一个动物是狗还是猫的依据。如果判断为猫,目标值就为猫。

二.公开可用的数据集(方便自主学习使用)

 scikit-learn网址:scikit-learn: machine learning in Python — scikit-learn 1.5.1 documentation

        UCI网址:UCI Machine Learning Repository

        Kaggle网址:Bohrium

  • scikit-learn        数据量小,方便学习
    • UCI            收录360个数据集,覆盖科技、生活、经济等领域,数据量几十万。
    • Kaggle       大数据竞赛平台,真实数据,数据量巨大         

那就浅浅露一手,给大家看一下鸢尾花数据集,数据集网上都有,可以点击链接自行下载。

import sklearn
from sklearn.datasets import load_iris# Load the iris dataset
print(sklearn.datasets.load_iris())

 三.特征工程

        哎呀,刚刚忘记说机器学习的流程了,没事,现在补上。

  1. 获取数据(有数据你才能得到模型啊,有数据你才能训练模型)
  2. 数据预处理(把那些无用的数据删掉,比如:空值,无意义的,乱码)
  3. 特征工程(对特征值进行处理)
  4. 机器学习算法训练--模型
  5. 模型评估(如果模型不行的话,从第二步开始重新看看,再优化一下,直到模型评估良好)
  6. 应用(模型好了,我们才能应用)

很多人问,这特征工程不就是数据处理吗?其实不然,因为数据预处理,主要针对缺失值、异常值、无意义值。特征工程是在预处理后,专门用特殊技巧去对特征值进行处理,慢活出细糠嘛。 

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
data = [{'city':'北京','temperature':100}, {'city':'上海', 'temperature':60}, {'city':'深圳', 'temperature':30}]
# 1.实例化一个转换器类
transfer = DictVectorizer(sparse=False)# 2.调用fit_transform()
data_new = transfer.fit_transform(data)
print("data_new\n", data_new)
# 如果下面报错了,你就换最下面那个,可能是版本不同吧,方法名不一样
# print("特征名字\n", transfer.get_feature_names())
print("特征名字\n", transfer.get_feature_names_out())

上述代码,是将数据变成最后数值化的二维矩阵。 并且输出了特征名字。注意看第五行,如果sparse=True,那就会输出一个混淆矩阵(简单来说就是输出一堆坐标)。

 

四.文本特征提取 

        我们在日常用的文本中,无非是中文或者英文。这两种语言在文本体现上给文本特征提取带来了不同的感觉。英文作文,每个英文单词都会有间隔,所以特征较容易提取。而中文作文,都是一大堆话,所以特征提取的时候,输出的都是一整句话。

 看到了吧,就是这样的。整句话当做一个特征,就很无语。

以下分别是英文和中文文本特征提取的通道,可以点击链接,仔细学习。

http://t.csdnimg.cn/jRjLG                

 感谢大家关注和点赞, 今天的分享就到这里,祝大家顺顺如意。

这篇关于机器学习(前六关大总结)生动讲解+代码实例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1107110

相关文章

MySQL中的LENGTH()函数用法详解与实例分析

《MySQL中的LENGTH()函数用法详解与实例分析》MySQLLENGTH()函数用于计算字符串的字节长度,区别于CHAR_LENGTH()的字符长度,适用于多字节字符集(如UTF-8)的数据验证... 目录1. LENGTH()函数的基本语法2. LENGTH()函数的返回值2.1 示例1:计算字符串

Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式

《Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式》本文详细介绍如何使用Java通过JDBC连接MySQL数据库,包括下载驱动、配置Eclipse环境、检测数据库连接等关键步骤,... 目录一、下载驱动包二、放jar包三、检测数据库连接JavaJava 如何使用 JDBC 连接 mys

JavaSE正则表达式用法总结大全

《JavaSE正则表达式用法总结大全》正则表达式就是由一些特定的字符组成,代表的是一个规则,:本文主要介绍JavaSE正则表达式用法的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参考下... 目录常用的正则表达式匹配符正则表China编程达式常用的类Pattern类Matcher类PatternSynta

Java中调用数据库存储过程的示例代码

《Java中调用数据库存储过程的示例代码》本文介绍Java通过JDBC调用数据库存储过程的方法,涵盖参数类型、执行步骤及数据库差异,需注意异常处理与资源管理,以优化性能并实现复杂业务逻辑,感兴趣的朋友... 目录一、存储过程概述二、Java调用存储过程的基本javascript步骤三、Java调用存储过程示

Visual Studio 2022 编译C++20代码的图文步骤

《VisualStudio2022编译C++20代码的图文步骤》在VisualStudio中启用C++20import功能,需设置语言标准为ISOC++20,开启扫描源查找模块依赖及实验性标... 默认创建Visual Studio桌面控制台项目代码包含C++20的import方法。右键项目的属性:

嵌入式数据库SQLite 3配置使用讲解

《嵌入式数据库SQLite3配置使用讲解》本文强调嵌入式项目中SQLite3数据库的重要性,因其零配置、轻量级、跨平台及事务处理特性,可保障数据溯源与责任明确,详细讲解安装配置、基础语法及SQLit... 目录0、惨痛教训1、SQLite3环境配置(1)、下载安装SQLite库(2)、解压下载的文件(3)、

java向微信服务号发送消息的完整步骤实例

《java向微信服务号发送消息的完整步骤实例》:本文主要介绍java向微信服务号发送消息的相关资料,包括申请测试号获取appID/appsecret、关注公众号获取openID、配置消息模板及代码... 目录步骤1. 申请测试系统2. 公众号账号信息3. 关注测试号二维码4. 消息模板接口5. Java测试

MySQL数据库的内嵌函数和联合查询实例代码

《MySQL数据库的内嵌函数和联合查询实例代码》联合查询是一种将多个查询结果组合在一起的方法,通常使用UNION、UNIONALL、INTERSECT和EXCEPT关键字,下面:本文主要介绍MyS... 目录一.数据库的内嵌函数1.1聚合函数COUNT([DISTINCT] expr)SUM([DISTIN

Java实现自定义table宽高的示例代码

《Java实现自定义table宽高的示例代码》在桌面应用、管理系统乃至报表工具中,表格(JTable)作为最常用的数据展示组件,不仅承载对数据的增删改查,还需要配合布局与视觉需求,而JavaSwing... 目录一、项目背景详细介绍二、项目需求详细介绍三、相关技术详细介绍四、实现思路详细介绍五、完整实现代码

Go语言代码格式化的技巧分享

《Go语言代码格式化的技巧分享》在Go语言的开发过程中,代码格式化是一个看似细微却至关重要的环节,良好的代码格式化不仅能提升代码的可读性,还能促进团队协作,减少因代码风格差异引发的问题,Go在代码格式... 目录一、Go 语言代码格式化的重要性二、Go 语言代码格式化工具:gofmt 与 go fmt(一)