机器学习(前六关大总结)生动讲解+代码实例

2024-08-26 01:04

本文主要是介绍机器学习(前六关大总结)生动讲解+代码实例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

老粉都知道(还不点关注)我这机器学习已经有几天没更了,主要是最近忙碌比赛,所以时间紧张

那么我为大家总结一下,之前的机器学习知识点,让大家更好了解机器学习领域。

在此阅读前,感谢大家的关注和点赞。如果有疑问,可以评论区提问(看见包回的)

 本次从六个方面给大家进行总结,更加深透地理解机器学习

一.概念 (机器学习到底是什么东东??)

        机器学习,哎,一听名字就是:一个机器具有学习能力(机器学习我们,归纳总结,吸取教训)。更加通俗的讲法就是:机器通过大量数据去自动分析得到模型,并训练数据,去预测数据

比如,我上传了许多猫和狗的图片,让机器去自动分析,得到能够分辨猫狗的模型,再进行一定程度的训练,那么我们就可以判断一个动物是猫还是狗。 比如下面那个就是猫

 

 刚刚提到我们要有数据,数据包含特征值和目标值(可有可无)。特征值就是猫或者狗的特征,用来能够判断一个动物是狗还是猫的依据。如果判断为猫,目标值就为猫。

二.公开可用的数据集(方便自主学习使用)

 scikit-learn网址:scikit-learn: machine learning in Python — scikit-learn 1.5.1 documentation

        UCI网址:UCI Machine Learning Repository

        Kaggle网址:Bohrium

  • scikit-learn        数据量小,方便学习
    • UCI            收录360个数据集,覆盖科技、生活、经济等领域,数据量几十万。
    • Kaggle       大数据竞赛平台,真实数据,数据量巨大         

那就浅浅露一手,给大家看一下鸢尾花数据集,数据集网上都有,可以点击链接自行下载。

import sklearn
from sklearn.datasets import load_iris# Load the iris dataset
print(sklearn.datasets.load_iris())

 三.特征工程

        哎呀,刚刚忘记说机器学习的流程了,没事,现在补上。

  1. 获取数据(有数据你才能得到模型啊,有数据你才能训练模型)
  2. 数据预处理(把那些无用的数据删掉,比如:空值,无意义的,乱码)
  3. 特征工程(对特征值进行处理)
  4. 机器学习算法训练--模型
  5. 模型评估(如果模型不行的话,从第二步开始重新看看,再优化一下,直到模型评估良好)
  6. 应用(模型好了,我们才能应用)

很多人问,这特征工程不就是数据处理吗?其实不然,因为数据预处理,主要针对缺失值、异常值、无意义值。特征工程是在预处理后,专门用特殊技巧去对特征值进行处理,慢活出细糠嘛。 

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
data = [{'city':'北京','temperature':100}, {'city':'上海', 'temperature':60}, {'city':'深圳', 'temperature':30}]
# 1.实例化一个转换器类
transfer = DictVectorizer(sparse=False)# 2.调用fit_transform()
data_new = transfer.fit_transform(data)
print("data_new\n", data_new)
# 如果下面报错了,你就换最下面那个,可能是版本不同吧,方法名不一样
# print("特征名字\n", transfer.get_feature_names())
print("特征名字\n", transfer.get_feature_names_out())

上述代码,是将数据变成最后数值化的二维矩阵。 并且输出了特征名字。注意看第五行,如果sparse=True,那就会输出一个混淆矩阵(简单来说就是输出一堆坐标)。

 

四.文本特征提取 

        我们在日常用的文本中,无非是中文或者英文。这两种语言在文本体现上给文本特征提取带来了不同的感觉。英文作文,每个英文单词都会有间隔,所以特征较容易提取。而中文作文,都是一大堆话,所以特征提取的时候,输出的都是一整句话。

 看到了吧,就是这样的。整句话当做一个特征,就很无语。

以下分别是英文和中文文本特征提取的通道,可以点击链接,仔细学习。

http://t.csdnimg.cn/jRjLG                

 感谢大家关注和点赞, 今天的分享就到这里,祝大家顺顺如意。

这篇关于机器学习(前六关大总结)生动讲解+代码实例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1107110

相关文章

Python使用国内镜像加速pip安装的方法讲解

《Python使用国内镜像加速pip安装的方法讲解》在Python开发中,pip是一个非常重要的工具,用于安装和管理Python的第三方库,然而,在国内使用pip安装依赖时,往往会因为网络问题而导致速... 目录一、pip 工具简介1. 什么是 pip?2. 什么是 -i 参数?二、国内镜像源的选择三、如何

Java调用DeepSeek API的最佳实践及详细代码示例

《Java调用DeepSeekAPI的最佳实践及详细代码示例》:本文主要介绍如何使用Java调用DeepSeekAPI,包括获取API密钥、添加HTTP客户端依赖、创建HTTP请求、处理响应、... 目录1. 获取API密钥2. 添加HTTP客户端依赖3. 创建HTTP请求4. 处理响应5. 错误处理6.

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

前端原生js实现拖拽排课效果实例

《前端原生js实现拖拽排课效果实例》:本文主要介绍如何实现一个简单的课程表拖拽功能,通过HTML、CSS和JavaScript的配合,我们实现了课程项的拖拽、放置和显示功能,文中通过实例代码介绍的... 目录1. 效果展示2. 效果分析2.1 关键点2.2 实现方法3. 代码实现3.1 html部分3.2

Python中顺序结构和循环结构示例代码

《Python中顺序结构和循环结构示例代码》:本文主要介绍Python中的条件语句和循环语句,条件语句用于根据条件执行不同的代码块,循环语句用于重复执行一段代码,文章还详细说明了range函数的使... 目录一、条件语句(1)条件语句的定义(2)条件语句的语法(a)单分支 if(b)双分支 if-else(

Python itertools中accumulate函数用法及使用运用详细讲解

《Pythonitertools中accumulate函数用法及使用运用详细讲解》:本文主要介绍Python的itertools库中的accumulate函数,该函数可以计算累积和或通过指定函数... 目录1.1前言:1.2定义:1.3衍生用法:1.3Leetcode的实际运用:总结 1.1前言:本文将详

Java深度学习库DJL实现Python的NumPy方式

《Java深度学习库DJL实现Python的NumPy方式》本文介绍了DJL库的背景和基本功能,包括NDArray的创建、数学运算、数据获取和设置等,同时,还展示了如何使用NDArray进行数据预处理... 目录1 NDArray 的背景介绍1.1 架构2 JavaDJL使用2.1 安装DJL2.2 基本操

MySQL数据库函数之JSON_EXTRACT示例代码

《MySQL数据库函数之JSON_EXTRACT示例代码》:本文主要介绍MySQL数据库函数之JSON_EXTRACT的相关资料,JSON_EXTRACT()函数用于从JSON文档中提取值,支持对... 目录前言基本语法路径表达式示例示例 1: 提取简单值示例 2: 提取嵌套值示例 3: 提取数组中的值注意

CSS3中使用flex和grid实现等高元素布局的示例代码

《CSS3中使用flex和grid实现等高元素布局的示例代码》:本文主要介绍了使用CSS3中的Flexbox和Grid布局实现等高元素布局的方法,通过简单的两列实现、每行放置3列以及全部代码的展示,展示了这两种布局方式的实现细节和效果,详细内容请阅读本文,希望能对你有所帮助... 过往的实现方法是使用浮动加

JAVA调用Deepseek的api完成基本对话简单代码示例

《JAVA调用Deepseek的api完成基本对话简单代码示例》:本文主要介绍JAVA调用Deepseek的api完成基本对话的相关资料,文中详细讲解了如何获取DeepSeekAPI密钥、添加H... 获取API密钥首先,从DeepSeek平台获取API密钥,用于身份验证。添加HTTP客户端依赖使用Jav