《机器学习》西瓜书课后习题3.4——python解交叉验证和留一法的对率回归错误率

本文主要是介绍《机器学习》西瓜书课后习题3.4——python解交叉验证和留一法的对率回归错误率,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《机器学习》西瓜书课后习题3.4——python解交叉验证和留一法的对率回归错误率

《机器学习》西瓜书P69

3.3 选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率

数据集:鸢尾花数据集

数据集属性信息:

1.萼片长度(以厘米计)
2.萼片宽度(以厘米计)
3.花瓣长度(以厘米计)
4.花瓣宽度(以厘米计)
5.类别:

数据集处理说明:该数据集中鸢尾花种类共有3种,分别是:Iris-setosa、Iris-versicolor和Iris-virginica,由于题目中要求采用两种方法对数据集进行处理,因此我们将Iris-setosa和Iris-versicolor划分在一个数据集(称为1号数据集),并采用留一法法进行数据集的划分,Iris-versicolor和Iris-virginica放入另一个数据集(称为2号数据集)并使用交叉验证法进行划分。

【代码】

#Iris-setosa标记为0,Iris-versicolor标记为1,Iris-virginica标记为2
def loadDataset(filename):dataset_12=[]dataset_23=[]with open(filename,'r',encoding='utf-8') as csvfile:csv_reader = csv.reader(csvfile)for row in csv_reader:if row[4] == 'Iris-setosa':row[4]=0dataset_12.append(copy.deepcopy(row))elif row[4]=='Iris-virginica':row[4]=2dataset_23.append(copy.deepcopy(row) )else:row[4]=1dataset_12.append(copy.deepcopy(row))dataset_23.append(copy.deepcopy(row))data_12 = [[float(x) for x in row] for row in dataset_12]data_23= [[float(x) for x in row] for row in dataset_23]# print(data_12)# print(data_23)return data_12,data_23

注意:在该程序中我们使用append(copy.deepcopy(row))进行深度复制,目的是避免对数组的操作影响原数组的变化,下同!!!!


针对2号数据集:

【代码思路】我们使用10折交叉验证法对数据集每次划分为训练集和测试集,然后使用梯度下降法对训练集进行训练,并使用测试集求得每次的准确率,最终我们将10次准确率取平均值,即为最终的正确率。

【详细过程】

  1. 首先利用python中自带的函数进行10折交叉验证划分,由于返回的是划分数据的下标,因此我们需要找到对应的数据元素,然后,对得到的训练集和测试集中的数据进行预处理(在数组最后增加一列1,0,1存储真实标记),接着就可以参与训练,我们将迭代次数设置为2000次,我们发现当迭代次数达到2000之后,准确率很难再增长,于是取2000作为终止条件,将得到的w分别与10个测试集进行运算比较,得到10组准确率,取平均值即可。

  2. 最终我们得到10折交叉验证法进行对率回归得到的准确率为96%!

    #定义sigmoid函数
    def sigmoid(z):return 1.0 / (1 + np.exp(-z))#计算正确率
    def testing(testset,w,testlabel):data = np.mat(testset).astype(float)y = sigmoid(np.dot(data, w))b, c = np.shape(y)  # 功能是查看矩阵或者数组的维数。rightcount = 0for i in range(b):flag = -1if y[i, 0] > 0.5:flag = 1elif y[i, 0] < 0.5:flag = 0if testlabel[i] == flag:rightcount += 1rightrate = rightcount / len(testset)return rightrate#迭代求w
    def training(dataset,labelset,testset,testlabel):# np.dot(a,b) a和b矩阵点乘# np.transpose()  转置# np.ones((m,n))  创建一个m行n列的多维数组data=np.mat(dataset).astype(float)label=np.mat(labelset).transpose()w = np.ones((len(dataset[0]),1))#步长n=0.0001# 每次迭代计算一次正确率(在测试集上的正确率)# 达到0.90的正确率,停止迭代rightrate=0.0count=0while count<5000:c=sigmoid(np.dot(data,w))b=c-labelchange = np.dot(np.transpose(data),b)w=w-change*n#预测,更新准确率if rightrate<testing(testset,w,testlabel):rightrate=testing(testset,w,testlabel)count+=1return rightratedef formdata(dataset,flag):#flag=1代表的是对一号数据集进行数据预处理,falg=2针对2号数据集#主要是将训练集和测试集进行规范化处理,便于下一步进行正确率计算和迭代求wdata=[]label=[]if flag==1:for row in dataset:label.append(copy.deepcopy(row[4]))row[4]=1data.append(copy.deepcopy(row))elif flag == 2:for row in dataset:label.append(copy.deepcopy(row[4]-1))row[4]=1data.append(copy.deepcopy(row))return data,labeldef changedata(dataset,train_index,test_index):#对数据集进行处理,增加最后一列为1trainset=[]testset=[]for i in train_index:trainset.append(copy.deepcopy(dataset[i]))for i in test_index:testset.append(copy.deepcopy(dataset[i]))return trainset,testset#10折交叉验证法对数据集23进行分类
    def Flod_10(dataset):sam=KFold(n_splits=10)rightrate=0.0for train_index,test_index in sam.split(dataset):#得到训练集和测试集的索引# 下面将索引转化为所对应的元素,并将训练集进行迭代,每次求出最大的正确率trainset,testset=changedata(dataset,train_index,test_index)#print(trainset)trainset,trainlabel=formdata(trainset,2)testset,testlabel=formdata(testset,2)rightrate+=training(trainset,trainlabel,testset,testlabel)print(rightrate/10)

    最终结果

[[-1.90048431][-1.20567294][ 2.31544454][ 2.66095658][-0.20997301]]
[[-1.86985439][-1.3288315 ][ 2.3427924 ][ 2.64797632][-0.16119412]]
[[-1.90055107][-1.29322442][ 2.37973509][ 2.68461371][-0.26297932]]
[[-2.00438577][-1.18000688][ 2.43352222][ 2.65712983][-0.15617894]]
[[-1.94737348][-1.16692044][ 2.35919664][ 2.59038908][-0.14542583]]
[[-1.91467144][-1.22980709][ 2.27891615][ 2.74578832][-0.23887025]]
[[-1.94810073][-1.27450893][ 2.37093425][ 2.64955955][-0.24649082]]
[[-1.99150258][-1.25235181][ 2.35312496][ 2.75221192][-0.20701229]]
[[-1.96302072][-1.29024687][ 2.31087635][ 2.8008307 ][-0.16047752]]
[[-1.9630222 ][-1.35486554][ 2.50563773][ 2.44772595][-0.25646535]]
0.96

针对1号数据集

【代码思路】我们使用留一法进行划分,将数据集的75%作为训练集,25%作为测试集,由于Iris-setosa、Iris-versicolor的个数为1:1因此采用分层抽样的方法,我们将每种花的75%作为训练集,25%作为测试集,然后进行迭代求准确率即可!

#留出法——对数据集12进行分类
#将75%的样本作为训练,其余用作测试
def LeftOut(dataset):train12=[]test12=[]for i in range(len(dataset)):if i<=37:train12.append(copy.deepcopy(dataset[i]))elif i>50 and i<=88:train12.append(copy.deepcopy(dataset[i]))else:test12.append(copy.deepcopy(dataset[i]))trainset,trainlabel=formdata(train12,1)testset,testlabel=formdata(test12,1)rightrate=training(trainset,trainlabel,testset,testlabel)print(rightrate)

最终结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YWyjAXfj-1620097001273)(C:\Users\hp\AppData\Roaming\Typora\typora-user-images\image-20210504105611147.png)]
【完整源代码】

import copy
import csv
import numpy as np
from sklearn.model_selection import KFold#Iris-setosa标记为0,Iris-versicolor标记为1,Iris-virginica标记为2
def loadDataset(filename):dataset_12=[]dataset_23=[]with open(filename,'r',encoding='utf-8') as csvfile:csv_reader = csv.reader(csvfile)for row in csv_reader:if row[4] == 'Iris-setosa':row[4]=0dataset_12.append(copy.deepcopy(row))elif row[4]=='Iris-virginica':row[4]=2dataset_23.append(copy.deepcopy(row) )else:row[4]=1dataset_12.append(copy.deepcopy(row))dataset_23.append(copy.deepcopy(row))data_12 = [[float(x) for x in row] for row in dataset_12]data_23= [[float(x) for x in row] for row in dataset_23]# print(data_12)# print(data_23)return data_12,data_23#定义sigmoid函数
def sigmoid(z):return 1.0 / (1 + np.exp(-z))#计算正确率
def testing(testset,w,testlabel):data = np.mat(testset).astype(float)y = sigmoid(np.dot(data, w))b, c = np.shape(y)  # 功能是查看矩阵或者数组的维数。rightcount = 0for i in range(b):flag = -1if y[i, 0] > 0.5:flag = 1elif y[i, 0] < 0.5:flag = 0if testlabel[i] == flag:rightcount += 1rightrate = rightcount / len(testset)return rightrate#迭代求w
def training(dataset,labelset,testset,testlabel):# np.dot(a,b) a和b矩阵点乘# np.transpose()  转置# np.ones((m,n))  创建一个m行n列的多维数组data=np.mat(dataset).astype(float)label=np.mat(labelset).transpose()w = np.ones((len(dataset[0]),1))#步长n=0.0001# 每次迭代计算一次正确率(在测试集上的正确率)# 达到0.90的正确率,停止迭代rightrate=0.0count=0while count<5000:c=sigmoid(np.dot(data,w))b=c-labelchange = np.dot(np.transpose(data),b)w=w-change*n#预测,更新准确率if rightrate<testing(testset,w,testlabel):rightrate=testing(testset,w,testlabel)count+=1print(w)return rightratedef formdata(dataset,flag):#flag=1代表的是对一号数据集进行数据预处理,falg=2针对2号数据集#主要是将训练集和测试集进行规范化处理,便于下一步进行正确率计算和迭代求wdata=[]label=[]if flag==1:for row in dataset:label.append(copy.deepcopy(row[4]))row[4]=1data.append(copy.deepcopy(row))elif flag == 2:for row in dataset:label.append(copy.deepcopy(row[4]-1))row[4]=1data.append(copy.deepcopy(row))return data,labeldef changedata(dataset,train_index,test_index):#对数据集进行处理,增加最后一列为1trainset=[]testset=[]for i in train_index:trainset.append(copy.deepcopy(dataset[i]))for i in test_index:testset.append(copy.deepcopy(dataset[i]))return trainset,testset#留出法——对数据集12进行分类
#将75%的样本作为训练,其余用作测试
def LeftOut(dataset):train12=[]test12=[]for i in range(len(dataset)):if i<=37:train12.append(copy.deepcopy(dataset[i]))elif i>50 and i<=88:train12.append(copy.deepcopy(dataset[i]))else:test12.append(copy.deepcopy(dataset[i]))trainset,trainlabel=formdata(train12,1)testset,testlabel=formdata(test12,1)rightrate=training(trainset,trainlabel,testset,testlabel)print(rightrate)#10折交叉验证法对数据集23进行分类
def Flod_10(dataset):sam=KFold(n_splits=10)rightrate=0.0for train_index,test_index in sam.split(dataset):#得到训练集和测试集的索引# 下面将索引转化为所对应的元素,并将训练集进行迭代,每次求出最大的正确率trainset,testset=changedata(dataset,train_index,test_index)#print(trainset)trainset,trainlabel=formdata(trainset,2)testset,testlabel=formdata(testset,2)rightrate+=training(trainset,trainlabel,testset,testlabel)print(rightrate/10)filename="iris.csv"
data_12,data_23=loadDataset(filename)
LeftOut(data_12)
Flod_10(data_23)

【结论】

10折交叉验证法的错误率:0%(存在偶然性,需要进行多次随机抽样取平均值,我们未进行该操作

留一法所估计出的对率回归的错误率:4%

这篇关于《机器学习》西瓜书课后习题3.4——python解交叉验证和留一法的对率回归错误率的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/226024

相关文章

python中各种常见文件的读写操作与类型转换详细指南

《python中各种常见文件的读写操作与类型转换详细指南》这篇文章主要为大家详细介绍了python中各种常见文件(txt,xls,csv,sql,二进制文件)的读写操作与类型转换,感兴趣的小伙伴可以跟... 目录1.文件txt读写标准用法1.1写入文件1.2读取文件2. 二进制文件读取3. 大文件读取3.1

使用Python实现一个优雅的异步定时器

《使用Python实现一个优雅的异步定时器》在Python中实现定时器功能是一个常见需求,尤其是在需要周期性执行任务的场景下,本文给大家介绍了基于asyncio和threading模块,可扩展的异步定... 目录需求背景代码1. 单例事件循环的实现2. 事件循环的运行与关闭3. 定时器核心逻辑4. 启动与停

基于Python实现读取嵌套压缩包下文件的方法

《基于Python实现读取嵌套压缩包下文件的方法》工作中遇到的问题,需要用Python实现嵌套压缩包下文件读取,本文给大家介绍了详细的解决方法,并有相关的代码示例供大家参考,需要的朋友可以参考下... 目录思路完整代码代码优化思路打开外层zip压缩包并遍历文件:使用with zipfile.ZipFil

Python处理函数调用超时的四种方法

《Python处理函数调用超时的四种方法》在实际开发过程中,我们可能会遇到一些场景,需要对函数的执行时间进行限制,例如,当一个函数执行时间过长时,可能会导致程序卡顿、资源占用过高,因此,在某些情况下,... 目录前言func-timeout1. 安装 func-timeout2. 基本用法自定义进程subp

Python实现word文档内容智能提取以及合成

《Python实现word文档内容智能提取以及合成》这篇文章主要为大家详细介绍了如何使用Python实现从10个左右的docx文档中抽取内容,再调整语言风格后生成新的文档,感兴趣的小伙伴可以了解一下... 目录核心思路技术路径实现步骤阶段一:准备工作阶段二:内容提取 (python 脚本)阶段三:语言风格调

Python结合PyWebView库打造跨平台桌面应用

《Python结合PyWebView库打造跨平台桌面应用》随着Web技术的发展,将HTML/CSS/JavaScript与Python结合构建桌面应用成为可能,本文将系统讲解如何使用PyWebView... 目录一、技术原理与优势分析1.1 架构原理1.2 核心优势二、开发环境搭建2.1 安装依赖2.2 验

Linux内核参数配置与验证详细指南

《Linux内核参数配置与验证详细指南》在Linux系统运维和性能优化中,内核参数(sysctl)的配置至关重要,本文主要来聊聊如何配置与验证这些Linux内核参数,希望对大家有一定的帮助... 目录1. 引言2. 内核参数的作用3. 如何设置内核参数3.1 临时设置(重启失效)3.2 永久设置(重启仍生效

一文详解如何在Python中从字符串中提取部分内容

《一文详解如何在Python中从字符串中提取部分内容》:本文主要介绍如何在Python中从字符串中提取部分内容的相关资料,包括使用正则表达式、Pyparsing库、AST(抽象语法树)、字符串操作... 目录前言解决方案方法一:使用正则表达式方法二:使用 Pyparsing方法三:使用 AST方法四:使用字

Python列表去重的4种核心方法与实战指南详解

《Python列表去重的4种核心方法与实战指南详解》在Python开发中,处理列表数据时经常需要去除重复元素,本文将详细介绍4种最实用的列表去重方法,有需要的小伙伴可以根据自己的需要进行选择... 目录方法1:集合(set)去重法(最快速)方法2:顺序遍历法(保持顺序)方法3:副本删除法(原地修改)方法4:

Python运行中频繁出现Restart提示的解决办法

《Python运行中频繁出现Restart提示的解决办法》在编程的世界里,遇到各种奇怪的问题是家常便饭,但是,当你的Python程序在运行过程中频繁出现“Restart”提示时,这可能不仅仅是令人头疼... 目录问题描述代码示例无限循环递归调用内存泄漏解决方案1. 检查代码逻辑无限循环递归调用内存泄漏2.