毕设分享 糖尿病视网膜病变数据据分析

2023-10-24 04:10

本文主要是介绍毕设分享 糖尿病视网膜病变数据据分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

0 简介

今天学长向大家介绍一个机器视觉的毕设项目,基于深度学习的人脸识别系统

项目运行效果:

毕业设计 糖尿病视网膜预测

项目获取:

https://gitee.com/sinonfin/algorithm-sharing

1 任务目标

这次任务的数据集是1000的糖网的4个等级的眼底图像,我们需要利用深度学习框架pytorch 来根据眼底图像预测其分类。
在这里插入图片描述
在这里插入图片描述

2 数据处理

1.数据分析

通过对数据统计可以得到(已经划分的训练集):
在这里插入图片描述
图片种类的分布是有一点不均匀的,同时图片数量也有一点少,所以我们先简单的对图片数据进行一下扩充,这里我们使用最简单的图片反转作为数据增强的方式。我们对一类的图片进行的左右翻转和上下翻转,扩充为原来的三倍。对二类和三类的图片我们做了上下翻转,扩充到原来的二倍。对零类图片不做任何处理。
在这里插入图片描述
这是处理后的训练集分布。
我是7:3分割的训练集和验证集

2.模型训练


2.1模型准备

使用的模型是torchvision.model里的经典模型和预训练好的参数。

from torchvision import models as models
# inception_v3,ResNet50
model = models.resnet50(pretrained=True)
#将pretrained置为true,意思是使用已经预训练好的参数。model.fc#打印模型全连接层的输入和输出参数
#Linear(in_features=2048, out_features=1000, bias=True)

因为我们是四分类所以调整模型输出为:

model.fc = torch.nn.Linear(in_features=2048, out_features=4, bias=True)
model.aux_logits = False #这个设置是InceptionV3这个模型需要设置的,
#不知道什么意思,但不设置会报错。

2.2参数设置

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = model.to(device=device)
learning_rate = 1e-4
num_epochs = 10
batch_size = 32
optimizer = torch.optim.Adam(model.parameters(), lr = learning_rate)
loss_criterion = torch.nn.CrossEntropyLoss()

2.3读取数据并转换为tensor类型

这一部分我是定义了一个类mydataset继承父类Dataset来获取可迭代的数据对象,同时对图片的处理和transform转换也在这里面实现。这里就不多说,对dataset不懂得可以看我之前写的dataset类。直接贴代码。

my_transform = transforms.Compose([transforms.Resize((299,299)),transforms.ToTensor(),
#     transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])
#这里进行transform是因为inception_v3模型的输入是(299*299)
#resnet就不需要是(299*299)了
class retinaDataset(Dataset):def __init__(self, imagepath=r"D:\course\junior_2\deep_learning\third\train", csv_path=" ",transform=my_transform):self.df = pd.read_csv(csv_path)# if (total is not None):#     self.df = self.df[:total]self.transform = transformself.imagepath = imagepathdef __len__(self):return len(self.df)def __getitem__(self, index):img_path = os.path.join(self.imagepath, self.df.iloc[index].image +".png")img = Image.open(img_path)if(self.transform):img = self.transform(img)return img, torch.tensor(self.df.iloc[index].Retinopathy_grade)train_dataset = retinaDataset(csv_path=r"D:\course\junior_2\deep_learning\mythird\train.csv")train_dataloader = DataLoader(dataset=train_dataset, 
batch_size=batch_size, shuffle=True)
#这里调用Dataloder函数对数据进行分组并打乱顺序。

2.4开始训练

for epoch in range(num_epochs):for data, target in tqdm(train_dataloader):data = data.to(device=device)target = target.to(device=device)score = model(data)optimizer.zero_grad()loss = loss_criterion(score, target)loss.backward()optimizer.step()print(f"for epoch {epoch}, loss : {loss}")

2.5测试模型准确率

def f_check_accuracy(model_i,model_r, loader):model_i.eval() #模型inception_v3model_r.eval() #模型resnet50num0=0num1=0num2=0num3=0total0=0total1=0total2=0total3=0correct_output = 0total_output = 0with torch.no_grad(): #反向传播时不再自动求导,节省显存。for x, y in tqdm(loader):x = x.to(device=device)y = y.to(device=device)score_i = model_i(x)score_r = model_r(x)_,predictions_i = score_i.max(1)_,predictions_r = score_r.max(1)for i in range (len(y)):if(y[i]==0):total0=total0+1if(predictions_i[i]==0):num0=num0+1elif(y[i]==1):total1=total1+1if(predictions_r[i]==1):num1=num1+1elif(y[i]==2):total2=total2+1if(predictions_r[i]==2):num2=num2+1   elif(y[i]==3):total3=total3+1if(predictions_i[i]==3):num3=num3+1 correct_output =num0+num1+num2+num3total_output =total0+total1+total2+total3# model.train()print("0类准确率",num0/total0,"correct:",num0,"total:",total0)print("1类准确率",num1/total1,"correct:",num1,"total:",total1)print("2类准确率",num2/total2,"correct:",num2,"total:",total2)print("3类准确率",num3/total3,"correct:",num3,"total:",total3)print(f"out of {total_output} , total correct: {correct_output} with an accuracy of {float(correct_output/total_output)*100}")

解释一下我为什么要把inception_v3和resnet50结合到一起。
在这里插入图片描述
我们可以看到v3和resnet50再不同种类的准确率不同。所以可以把这两个模型结合在一起来提高准确率。
在这里插入图片描述
可以看到准确率提升的效果很好,大约20个点左右。
我们还可以从kaggle中下载一些数据来补充训练集,因为1000图片在划分之后对于四分类的任务来说是不够的。

3 数据分析

数据集描述
1.
下载地址messidor_features.arff
2. 数据集开头有一些描述信息,训练是用不到的,我选择删掉,方便用pd.read_csv()函数读取。
红色部分删去
当然不删也是可以的,有专门的函数读取.arff文件

from scipy.io import arff
import pandas as pd
df = arff.loadarff('messidor_features.arff') #读取出来是一个元组
dataframe = pd.DataFrame(df[0])

3.数据集messidor_features.arff包含从 Messidor
图像集中提取的特征,用于预测图像是否包含糖尿病视网膜病变的迹象。所有特征都代表检测到的病变、解剖部位的描述特征或图像级描述符。该数据集有20条属性,类标签是最后一条,如图。
属性
4. 对数据集有大概了解后,来简单探索性分析一下它。首先查看data.info(),看看有没有缺失值及数据类型。

import pandas as pdpath='E:/Python_file/zuoye/messidor_features.arff'
Cnames = ['x0', 'x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x9','x10', 'x11', 'x12', 'x13', 'x14', 'x15', 'x16', 'x17', 'x18', 'y']
#删掉与数据集无关的内容
data=pd.read_csv(path,header=None,names=Cnames)
print('数据集基础信息:')
print(data.info())

可以看到数据里没有缺失值。再统计一下,类标签为‘1’的数据有611条,占比为53.1%;标签为‘0’的数据有540条,占比为46.9%。说明正例数据与负例数据的数量分布是均衡的。
5. 这里推荐使用pandas-profiling库,可以一键生成对数据集的分析报告,非常好用。没有安装的话用pip install
pandas_profiling 命令安装一下。

import pandas_profiling
report= pandas_profiling.ProfileReport(data)
report.to_file("output_file.html")

运行后生成一个可交互的.html文件,通常包含对数据的类型检测;计算唯一值、缺失值;分位数统计如最小最大值、四分位数、中位数等;描述统计如平均数、众数、峰度偏度等;变量间相关系数的热力图,等等。
我们来看看该数据集下各属性间用Spearman秩相关系数(ρ)描述的单调相关的度量热力图,ρ的值介于-1和+1之间,-1表示完全负单调相关,0表示没有单调相关,1表示完全正单调相关。
相关性
三. 方法介绍
逻辑回归的原理有很多博主写的很好,我就不班门弄斧了,主要说说代码。利用sklearn库提供的LogisticRegression()可以很方便的完成训练和预测。

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_splitX=data[data.columns[0:19]] #提取特征,不要标签
y=data['y']                #train_size=0.8,80%的训练集占比
x_train,x_test,y_train,y_test=train_test_split(X,y,train_size=0.8,random_state=90)lr=LogisticRegression(max_iter=3000)
clm=lr.fit(x_train,y_train)
print('对测试集的预测结果:')
#输出预测结果、预测结果的结构类型及尺寸
result=clm.predict(x_test)

LogisticRegression()的参数很多,但需要设置的不多。我们的数据集是分布均衡的,参数类别权重 class_weight
不需要设置;关于参数优化算法 solver
用默认的‘liblinear’就好,因为这是二分类问题(只看有没有病变),而且我们是小数据集,也用不到面向大数据集的‘sag’和‘saga’;而
max_iter 是设置迭代次数,如果小了,可能模型没收敛就运行结束了,这里我设置为3000次。

四. 结果和模型评价及可视化
1.测试集的检测结果如图,1代表有病变,0代表没有。要注意的是划分训练集和测试集时,random_state等于不同的值,会得到不同的测试集,我这里是random_state=90,改成其他数,预测结果就和我不同,但对模型评价没有影响。
在这里插入图片描述
2.
模型评价的指标有很多,比如召回率、精度、准确率、F统计量、决定系数R²、ROC曲线的包络面积AUC等。可以用classification_report()一键生成评估报告。

from sklearn.metrics import classification_report
print('性能报告;')
print(classification_report(y_test,result))
confusion = metrics.confusion_matrix(y_test, result)

在这里插入图片描述
3. 以FPR为横轴,TPR为纵轴,绘制ROC曲线,并由曲线计算得AUC=0.77。

from sklearn.metrics import roc_curve,auc
from matplotlib import pyplot as pltfpr, tpr, thr = roc_curve(y_test, result, drop_intermediate=False)
fpr, tpr = [0] + list(fpr), [0] + list(tpr)
plt.plot(fpr, tpr)
plt.title('ROC curve for diabetes classifier')
plt.xlabel('False Positive Rate (1 - Specificity)')
plt.ylabel('True Positive Rate (Sensitivity)')
plt.grid(True)
plt.show()
print('AUC:'+ str(auc(fpr,tpr)))

在这里插入图片描述
该模型的检测能力还是可以的。
4. 从逻辑回归模型中导出各个变量的回归系数,由此作出重要程度的条形图。

print('逻辑回归各变量系数:')
print(clm.coef_)
coef_lr = pd.DataFrame({'var' : x_test.columns,'coef' : clm.coef_.flatten()})index_sort =  np.abs(coef_lr['coef']).sort_values().index
coef_lr_sort = coef_lr.loc[index_sort,:]# 水平柱形图绘图
fig,ax=plt.subplots()
x, y = coef_lr_sort['var'], coef_lr_sort['coef']
rects = plt.barh(x, y, color='dodgerblue')
plt.grid(linestyle="-.", axis='y', alpha=0.4)
plt.tight_layout()
#添加数据标签
for rect in rects:w = rect.get_width()ax.text(w, rect.get_y()+rect.get_height()/2,'%.2f' %w,ha='left',va='center')

在这里插入图片描述
逻辑回归就是把线性回归的结果输入到了sigmoid函数,所以各变量的系数还是有的。
在这里插入图片描述
可以看到对视网膜病变检测结果影响最大的五个变量分别是x14,x1,x2,x0,x15,它们的含义参照上文。可以确定这五个变量是导致糖尿病视网膜病变的主要因素。

项目运行效果:

毕业设计 糖尿病视网膜预测

项目获取:

https://gitee.com/sinonfin/algorithm-sharing

这篇关于毕设分享 糖尿病视网膜病变数据据分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/272601

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi