Python机器学习实践(二)K近邻分类(简单鸾尾花分类)

2024-03-08 22:10

本文主要是介绍Python机器学习实践(二)K近邻分类(简单鸾尾花分类),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python机器学习 学习笔记与实践
环境:win10 + Anaconda3.8

例子二 源自《Python机器学习基础教程》—Andreas C.Muller

任务:鸾尾花的分类。鸾尾花有3个品种:setosa、versicolor、virginica。每种鸾尾花都有4个属性:花瓣的长度和宽度以及花萼的长度和宽度。现在要建立模型根据鸾尾花的4个属性来判断鸾尾花的种类,即分类问题。

1、获取数据

该数据集在scikit-learn的datasets模块中,我们用load_iris函数调用。

#获取鸾尾花数据集并观察键值
from sklearn.datasets import load_iris
iris_dataset=load_iris()
print(iris_dataset.keys())

iris_dataset数据类型是bunch,类似于字典,包含有键和值。运行结果如下:

dict_keys([‘data’, ‘target’, ‘frame’, ‘target_names’, ‘DESCR’, ‘feature_names’, ‘filename’])

(1)'data’是花的四个属性值,‘target’是一个一维数组,data中的每一朵花对应target中的一个数据。target中用0,1,2分别表示三种类型的花。

(2)‘target_names‘’中保存了三种花的名字,‘feature_names’则保存了花的4个属性的名字。

可以自行用print分别打印各个参数,了解数据。

2、处理,显示数据

#将数据集分为训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(iris_dataset['data'],iris_dataset['target'],random_state=0)
#观察数据,看看数据大致规律
import pandas as pd
import matplotlib.pyplot as plt
iris_dataframe=pd.DataFrame(X_train,columns=iris_dataset.feature_names)
grr=pd.plotting.scatter_matrix(iris_dataframe,c=y_train,figsize=(15,15),marker='.', hist_kwds={'bins':50},s=60,alpha=.8)
plt.show()

结果如下:
在这里插入图片描述
其中,反对角线上的图为该属性的直方图。

(1)用 train_test_split 函数将数据集分为两部分,一部分用来训练模型,另一部分用来作为测试集。默认情况下是训练集75%,测试集25%。由于有时候数据集在存储的时候是按一定顺序存储的,故在分片之前,该函数将产生伪随机序列打乱样本数据,而后进行分层。

“random_state”参数是初始化了伪随机序列的种子,从而使每一次运行结果一致。

(2)由于每个样本数据X都有4个属性,故在观察数据时绘制散点图矩阵。要注意如果不加plt.show()则图可能无法显示。

3、K近邻分类并评估

K近邻分类的思想比较简单,就是先保存训练集的结果,然后对于一个新样本过来,该算法在训练集里寻找和新样本“距离最近”的一个样本,并将它的标签进行输出。如果是K近邻,则是寻找“距离最近”的K个样本,然后输出这个样本中最多的类别标签。

例如K=1时有两个属性的样本散点图如下:
在这里插入图片描述
其中三角和圆分别训练集中表示不同的种类,五角星表示测试数据,模型找到与其最近的一个样本,并将该样本的标签给测试数据,图中用颜色表示。

同理,K=3时如下:
在这里插入图片描述
该部分代码如下:

#用K近邻算法分类
from sklearn.neighbors import KNeighborsClassifier
knn=KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train,y_train)
#用测试集数据评估模型
import numpy as np
y_predict=knn.predict(X_test)
print('Test score is {:.2f}'.format(np.mean(y_predict==y_test)))
#自己输入一个样本数据,看看模型输出结果
X_me=np.array([[5,2.9,1,0.2]])
Pred=knn.predict(X_me)
print('Prediction is : {} '.format(Pred))
print('The type of X_me is : {}'.format(iris_dataset['target_names'][Pred]))

运行结果如下:
在这里插入图片描述

(1)本例在建立KNN模型时将n_neighbors设为1,即寻找“长得最像”的一个样本。

(2)Test score反映了该模型对于测试集的输出效果,即有97%的测试样本预测成功,也可以说对于接下来的新样本,我们有97%的把握认为它是正确的。

(3)在自己创建一个样本的时候,要将数据转为二维矩阵的一行,因为scikit-learn只能接受二维矩阵。

(4)尝试将K近邻改为2和5之后,发现Test score 和预测结果均没有变化。

4、完整代码

#获取鸾尾花数据集并观察键值
from sklearn.datasets import load_iris
iris_dataset=load_iris()
print(iris_dataset.keys())
#将数据集分为训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(iris_dataset['data'],iris_dataset['target'],random_state=0)
#观察数据,看看数据大致规律
import pandas as pd
import matplotlib.pyplot as plt
iris_dataframe=pd.DataFrame(X_train,columns=iris_dataset.feature_names)
grr=pd.plotting.scatter_matrix(iris_dataframe,c=y_train,figsize=(15,15),marker='.', hist_kwds={'bins':50},s=60,alpha=.8)
plt.show()
#用K近邻算法分类
from sklearn.neighbors import KNeighborsClassifier
knn=KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train,y_train)
#用测试集数据评估模型
import numpy as np
y_predict=knn.predict(X_test)
print('Test score is {:.2f}'.format(np.mean(y_predict==y_test)))
#自己输入一个样本数据,看看模型输出结果
X_me=np.array([[5,2.9,1,0.2]])
Pred=knn.predict(X_me)
print('Prediction is : {} '.format(Pred))
print('The type of X_me is : {}'.format(iris_dataset['target_names'][Pred]))

这篇关于Python机器学习实践(二)K近邻分类(简单鸾尾花分类)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/788562

相关文章

防止Linux rm命令误操作的多场景防护方案与实践

《防止Linuxrm命令误操作的多场景防护方案与实践》在Linux系统中,rm命令是删除文件和目录的高效工具,但一旦误操作,如执行rm-rf/或rm-rf/*,极易导致系统数据灾难,本文针对不同场景... 目录引言理解 rm 命令及误操作风险rm 命令基础常见误操作案例防护方案使用 rm编程 别名及安全删除

python获取指定名字的程序的文件路径的两种方法

《python获取指定名字的程序的文件路径的两种方法》本文主要介绍了python获取指定名字的程序的文件路径的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 最近在做项目,需要用到给定一个程序名字就可以自动获取到这个程序在Windows系统下的绝对路径,以下

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

《使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解》本文详细介绍了如何使用Python通过ncmdump工具批量将.ncm音频转换为.mp3的步骤,包括安装、配置ffmpeg环... 目录1. 前言2. 安装 ncmdump3. 实现 .ncm 转 .mp34. 执行过程5. 执行结

Python实现批量CSV转Excel的高性能处理方案

《Python实现批量CSV转Excel的高性能处理方案》在日常办公中,我们经常需要将CSV格式的数据转换为Excel文件,本文将介绍一个基于Python的高性能解决方案,感兴趣的小伙伴可以跟随小编一... 目录一、场景需求二、技术方案三、核心代码四、批量处理方案五、性能优化六、使用示例完整代码七、小结一、

Python中 try / except / else / finally 异常处理方法详解

《Python中try/except/else/finally异常处理方法详解》:本文主要介绍Python中try/except/else/finally异常处理方法的相关资料,涵... 目录1. 基本结构2. 各部分的作用tryexceptelsefinally3. 执行流程总结4. 常见用法(1)多个e

C++统计函数执行时间的最佳实践

《C++统计函数执行时间的最佳实践》在软件开发过程中,性能分析是优化程序的重要环节,了解函数的执行时间分布对于识别性能瓶颈至关重要,本文将分享一个C++函数执行时间统计工具,希望对大家有所帮助... 目录前言工具特性核心设计1. 数据结构设计2. 单例模式管理器3. RAII自动计时使用方法基本用法高级用法

PHP应用中处理限流和API节流的最佳实践

《PHP应用中处理限流和API节流的最佳实践》限流和API节流对于确保Web应用程序的可靠性、安全性和可扩展性至关重要,本文将详细介绍PHP应用中处理限流和API节流的最佳实践,下面就来和小编一起学习... 目录限流的重要性在 php 中实施限流的最佳实践使用集中式存储进行状态管理(如 Redis)采用滑动

Python中logging模块用法示例总结

《Python中logging模块用法示例总结》在Python中logging模块是一个强大的日志记录工具,它允许用户将程序运行期间产生的日志信息输出到控制台或者写入到文件中,:本文主要介绍Pyt... 目录前言一. 基本使用1. 五种日志等级2.  设置报告等级3. 自定义格式4. C语言风格的格式化方法

Python实现精确小数计算的完全指南

《Python实现精确小数计算的完全指南》在金融计算、科学实验和工程领域,浮点数精度问题一直是开发者面临的重大挑战,本文将深入解析Python精确小数计算技术体系,感兴趣的小伙伴可以了解一下... 目录引言:小数精度问题的核心挑战一、浮点数精度问题分析1.1 浮点数精度陷阱1.2 浮点数误差来源二、基础解决

使用Python实现Word文档的自动化对比方案

《使用Python实现Word文档的自动化对比方案》我们经常需要比较两个Word文档的版本差异,无论是合同修订、论文修改还是代码文档更新,人工比对不仅效率低下,还容易遗漏关键改动,下面通过一个实际案例... 目录引言一、使用python-docx库解析文档结构二、使用difflib进行差异比对三、高级对比方