Python机器学习实践(二)K近邻分类(简单鸾尾花分类)

2024-03-08 22:10

本文主要是介绍Python机器学习实践(二)K近邻分类(简单鸾尾花分类),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python机器学习 学习笔记与实践
环境:win10 + Anaconda3.8

例子二 源自《Python机器学习基础教程》—Andreas C.Muller

任务:鸾尾花的分类。鸾尾花有3个品种:setosa、versicolor、virginica。每种鸾尾花都有4个属性:花瓣的长度和宽度以及花萼的长度和宽度。现在要建立模型根据鸾尾花的4个属性来判断鸾尾花的种类,即分类问题。

1、获取数据

该数据集在scikit-learn的datasets模块中,我们用load_iris函数调用。

#获取鸾尾花数据集并观察键值
from sklearn.datasets import load_iris
iris_dataset=load_iris()
print(iris_dataset.keys())

iris_dataset数据类型是bunch,类似于字典,包含有键和值。运行结果如下:

dict_keys([‘data’, ‘target’, ‘frame’, ‘target_names’, ‘DESCR’, ‘feature_names’, ‘filename’])

(1)'data’是花的四个属性值,‘target’是一个一维数组,data中的每一朵花对应target中的一个数据。target中用0,1,2分别表示三种类型的花。

(2)‘target_names‘’中保存了三种花的名字,‘feature_names’则保存了花的4个属性的名字。

可以自行用print分别打印各个参数,了解数据。

2、处理,显示数据

#将数据集分为训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(iris_dataset['data'],iris_dataset['target'],random_state=0)
#观察数据,看看数据大致规律
import pandas as pd
import matplotlib.pyplot as plt
iris_dataframe=pd.DataFrame(X_train,columns=iris_dataset.feature_names)
grr=pd.plotting.scatter_matrix(iris_dataframe,c=y_train,figsize=(15,15),marker='.', hist_kwds={'bins':50},s=60,alpha=.8)
plt.show()

结果如下:
在这里插入图片描述
其中,反对角线上的图为该属性的直方图。

(1)用 train_test_split 函数将数据集分为两部分,一部分用来训练模型,另一部分用来作为测试集。默认情况下是训练集75%,测试集25%。由于有时候数据集在存储的时候是按一定顺序存储的,故在分片之前,该函数将产生伪随机序列打乱样本数据,而后进行分层。

“random_state”参数是初始化了伪随机序列的种子,从而使每一次运行结果一致。

(2)由于每个样本数据X都有4个属性,故在观察数据时绘制散点图矩阵。要注意如果不加plt.show()则图可能无法显示。

3、K近邻分类并评估

K近邻分类的思想比较简单,就是先保存训练集的结果,然后对于一个新样本过来,该算法在训练集里寻找和新样本“距离最近”的一个样本,并将它的标签进行输出。如果是K近邻,则是寻找“距离最近”的K个样本,然后输出这个样本中最多的类别标签。

例如K=1时有两个属性的样本散点图如下:
在这里插入图片描述
其中三角和圆分别训练集中表示不同的种类,五角星表示测试数据,模型找到与其最近的一个样本,并将该样本的标签给测试数据,图中用颜色表示。

同理,K=3时如下:
在这里插入图片描述
该部分代码如下:

#用K近邻算法分类
from sklearn.neighbors import KNeighborsClassifier
knn=KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train,y_train)
#用测试集数据评估模型
import numpy as np
y_predict=knn.predict(X_test)
print('Test score is {:.2f}'.format(np.mean(y_predict==y_test)))
#自己输入一个样本数据,看看模型输出结果
X_me=np.array([[5,2.9,1,0.2]])
Pred=knn.predict(X_me)
print('Prediction is : {} '.format(Pred))
print('The type of X_me is : {}'.format(iris_dataset['target_names'][Pred]))

运行结果如下:
在这里插入图片描述

(1)本例在建立KNN模型时将n_neighbors设为1,即寻找“长得最像”的一个样本。

(2)Test score反映了该模型对于测试集的输出效果,即有97%的测试样本预测成功,也可以说对于接下来的新样本,我们有97%的把握认为它是正确的。

(3)在自己创建一个样本的时候,要将数据转为二维矩阵的一行,因为scikit-learn只能接受二维矩阵。

(4)尝试将K近邻改为2和5之后,发现Test score 和预测结果均没有变化。

4、完整代码

#获取鸾尾花数据集并观察键值
from sklearn.datasets import load_iris
iris_dataset=load_iris()
print(iris_dataset.keys())
#将数据集分为训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(iris_dataset['data'],iris_dataset['target'],random_state=0)
#观察数据,看看数据大致规律
import pandas as pd
import matplotlib.pyplot as plt
iris_dataframe=pd.DataFrame(X_train,columns=iris_dataset.feature_names)
grr=pd.plotting.scatter_matrix(iris_dataframe,c=y_train,figsize=(15,15),marker='.', hist_kwds={'bins':50},s=60,alpha=.8)
plt.show()
#用K近邻算法分类
from sklearn.neighbors import KNeighborsClassifier
knn=KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train,y_train)
#用测试集数据评估模型
import numpy as np
y_predict=knn.predict(X_test)
print('Test score is {:.2f}'.format(np.mean(y_predict==y_test)))
#自己输入一个样本数据,看看模型输出结果
X_me=np.array([[5,2.9,1,0.2]])
Pred=knn.predict(X_me)
print('Prediction is : {} '.format(Pred))
print('The type of X_me is : {}'.format(iris_dataset['target_names'][Pred]))

这篇关于Python机器学习实践(二)K近邻分类(简单鸾尾花分类)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/788562

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

hdu2289(简单二分)

虽说是简单二分,但是我还是wa死了  题意:已知圆台的体积,求高度 首先要知道圆台体积怎么求:设上下底的半径分别为r1,r2,高为h,V = PI*(r1*r1+r1*r2+r2*r2)*h/3 然后以h进行二分 代码如下: #include<iostream>#include<algorithm>#include<cstring>#include<stack>#includ