数据分析-23--糖尿病预测(线性回归模型)(包含数据代码)

2023-12-28 21:52

本文主要是介绍数据分析-23--糖尿病预测(线性回归模型)(包含数据代码),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 0. 数据代码下载
    • 1. 项目介绍
    • 2. 数据处理
      • 1. 导入数据
      • 2. 处理数据
    • 3. 建立模型
    • 4. 考察单个特征

0. 数据代码下载

关注公众号:『AI学习星球
回复:糖尿病预测 即可获取数据下载。
算法学习4对1辅导论文辅导核心期刊可以通过公众号或➕v:codebiubiubiu滴滴我
在这里插入图片描述


1. 项目介绍

本次实验的主要内容是使用回归分析和聚类分析来预测某人患糖尿病的可能性和身体的糖尿病指数。

本次数据分析实战,对糖尿病数据集进行回归分析。

sklearn.datasets 包提供了一些小的数据集,可用于机器学习入门,见下图。

导入toy数据的方法介绍任务数据规模
load_boston()加载和返回一个boston房屋价格的数据集回归506*13
load_iris([return_X_y])加载和返回一个鸢尾花数据集分类150*4
load_diabetes()加载和返回一个糖尿病数据集回归442*10
load_digits([n_class])加载和返回一个手写字数据集分类1797*64
load_linnerud()加载和返回一个健身数据集多分类20

2. 数据处理

1. 导入数据

导入数据分析常用包

# 导数据分析常用包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

导包获取糖尿病数据集

from sklearn.datasets import load_diabetes  
data_diabetes = load_diabetes()    
print(data_diabetes) 

我们先看一下数据是什么样:
diabetes 是一个关于糖尿病的数据集, 该数据集包括442个病人的生理数据及一年以后的病情发展情况。

在这里插入图片描述
从结果可以看到,这个数据集是个字典形式,三个key值,分别是['data' , 'feature_names' , 'target']

为了方便后续处理数据,现在将这个字典形式的数据集进行拆分。

data =  data_diabetes['data']
target = data_diabetes['target']
feature_names = data_diabetes['feature_names']

现在三个数据都是numpy的一维数据形式,将她们组合成dataframe,可以更直观地观察数据

df =  pd.DataFrame(data,columns = feature_names)
df.head()  # 查看前几行数据

在这里插入图片描述

2. 处理数据

查看数据集的基本信息

df.info() 

在这里插入图片描述
数据集共442条信息,特征值总共10项, 如下:

  • age:年龄
  • sex:性别
  • bmi = body mass index:身体质量指数,是衡量是否肥胖和标准体重的重要指标,理想BMI(18.5~23.9) = 体重(单位Kg) ÷ 身高的平方 (单位m)
  • bp = blood pressure :血压
  • s1,s2,s3,s4,s4,s6 (六种血清的化验数据)

3. 建立模型

  1. 抽取训练集合测试集
from sklearn.model_selection import train_test_split
train_X,test_X,train_Y,test_Y =  train_test_split(data,target,train_size =0.8)
  1. 建立模型
from sklearn.linear_model import LinearRegression
model = LinearRegression()
  1. 训练数据
model.fit(train_X,train_Y)
LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)
  1. 评估模型
model.score(train_X,train_Y)

输出结果 : 0.51298922173144801

  • 模型评估结果只有0.5左右,不是很高,说明变量之间的因果关系不是很强。
  • 一般这种情况下,我们会考察 单个特征值 与 结果标签 之间的相关关系。

4. 考察单个特征

考察单个特征值与结果之间的关系,以图表形式展示

  1. 取出特征值
df.columns

Index([‘age’, ‘sex’, ‘bmi’, ‘bp’, ‘s1’, ‘s2’, ‘s3’, ‘s4’, ‘s5’, ‘s6’], dtype=‘object’)

  1. 循环对每个特征值进行建模训练,作图
# 建立画板,作图5行2列的图
plt.figure(figsize=(2*6,5*5))
for i,col in enumerate(df.columns):  #enumerate 枚举train_X = df.loc[:,col].values.reshape(-1,1)    
# 每一次循环,都取出datafram中的一列数据,是一维Series数据格式,但是线性回归模型要求传入的是一个二维数据,因此利用reshape修改其形状train_Y = targetlinear_model = LinearRegression()    # 构建模型linear_model.fit(train_X,train_Y)    #训练模型score = linear_model.score(train_X,train_Y)   # 评估模型
#  以训练数据为X轴,标记为Y 轴,画出散点图,直观地看每个特征和标记直接的关系axes = plt.subplot(5,2,i+1)plt.scatter(train_X,train_Y)
# 画出每一个特征训练模型得到的拟合直线 y= kx + bk =  linear_model.coef_     # 回归系数b =  linear_model.intercept_   # 截距x = np.linspace(train_X.min(),train_X.max(),100)y = k * x + b
# 作图plt.plot(x,y,c='red')axes.set_title(col + ':' + str(score))
plt.show()

在这里插入图片描述

总结
从以上分析可知,单独看所有特征的训练结果,并不没有得到有效信息,我们拆分各个特征与指标的关系,可以看出:

  • bmi与糖尿病的相关性非常高,bp也有一定的关系,但是是否是直接关系,还是间接关系,有待深入考察。
  • 其他血清指标多少都和糖尿病有些关系,有的相关性强,有的相关性弱。

关注公众号:『AI学习星球
回复:糖尿病预测 即可获取数据下载。
算法学习4对1辅导论文辅导核心期刊可以通过公众号或➕v:codebiubiubiu滴滴我
在这里插入图片描述

这篇关于数据分析-23--糖尿病预测(线性回归模型)(包含数据代码)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/547431

相关文章

SpringValidation数据校验之约束注解与分组校验方式

《SpringValidation数据校验之约束注解与分组校验方式》本文将深入探讨SpringValidation的核心功能,帮助开发者掌握约束注解的使用技巧和分组校验的高级应用,从而构建更加健壮和可... 目录引言一、Spring Validation基础架构1.1 jsR-380标准与Spring整合1

MySQL 中查询 VARCHAR 类型 JSON 数据的问题记录

《MySQL中查询VARCHAR类型JSON数据的问题记录》在数据库设计中,有时我们会将JSON数据存储在VARCHAR或TEXT类型字段中,本文将详细介绍如何在MySQL中有效查询存储为V... 目录一、问题背景二、mysql jsON 函数2.1 常用 JSON 函数三、查询示例3.1 基本查询3.2

使用Python实现全能手机虚拟键盘的示例代码

《使用Python实现全能手机虚拟键盘的示例代码》在数字化办公时代,你是否遇到过这样的场景:会议室投影电脑突然键盘失灵、躺在沙发上想远程控制书房电脑、或者需要给长辈远程协助操作?今天我要分享的Pyth... 目录一、项目概述:不止于键盘的远程控制方案1.1 创新价值1.2 技术栈全景二、需求实现步骤一、需求

SpringBatch数据写入实现

《SpringBatch数据写入实现》SpringBatch通过ItemWriter接口及其丰富的实现,提供了强大的数据写入能力,本文主要介绍了SpringBatch数据写入实现,具有一定的参考价值,... 目录python引言一、ItemWriter核心概念二、数据库写入实现三、文件写入实现四、多目标写入

Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码

《Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码》:本文主要介绍Java中日期时间转换的多种方法,包括将Date转换为LocalD... 目录一、Date转LocalDateTime二、Date转LocalDate三、LocalDateTim

使用Python将JSON,XML和YAML数据写入Excel文件

《使用Python将JSON,XML和YAML数据写入Excel文件》JSON、XML和YAML作为主流结构化数据格式,因其层次化表达能力和跨平台兼容性,已成为系统间数据交换的通用载体,本文将介绍如何... 目录如何使用python写入数据到Excel工作表用Python导入jsON数据到Excel工作表用

Mysql如何将数据按照年月分组的统计

《Mysql如何将数据按照年月分组的统计》:本文主要介绍Mysql如何将数据按照年月分组的统计方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql将数据按照年月分组的统计要的效果方案总结Mysql将数据按照年月分组的统计要的效果方案① 使用 DA

鸿蒙中Axios数据请求的封装和配置方法

《鸿蒙中Axios数据请求的封装和配置方法》:本文主要介绍鸿蒙中Axios数据请求的封装和配置方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录1.配置权限 应用级权限和系统级权限2.配置网络请求的代码3.下载在Entry中 下载AxIOS4.封装Htt

jupyter代码块没有运行图标的解决方案

《jupyter代码块没有运行图标的解决方案》:本文主要介绍jupyter代码块没有运行图标的解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录jupyter代码块没有运行图标的解决1.找到Jupyter notebook的系统配置文件2.这时候一般会搜索到

Python通过模块化开发优化代码的技巧分享

《Python通过模块化开发优化代码的技巧分享》模块化开发就是把代码拆成一个个“零件”,该封装封装,该拆分拆分,下面小编就来和大家简单聊聊python如何用模块化开发进行代码优化吧... 目录什么是模块化开发如何拆分代码改进版:拆分成模块让模块更强大:使用 __init__.py你一定会遇到的问题模www.