scikit-learn KNN实现糖尿病预测

2024-03-07 07:58

本文主要是介绍scikit-learn KNN实现糖尿病预测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

随书代码,阅读笔记。

KNN是一种有监督的机器学习算法,可以解决分类问题,也可以解决回归问题。

算法优点:准确性高,对异常值和噪声有较高的容忍度;

算法缺点:计算量大,内存消耗也比较大。

针对算法计算量大,有一些改进的数据结构,避免重复计算K-D Tree, Ball Tree。

算法变种:根据邻居的距离,分配不同权重。另外一个变种是指定半径。

  • KNN进行分类
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pdfrom sklearn.datasets.samples_generator import make_blobs
# 生成数据
centers = [[-2, 2], [2, 2], [0, 4]]
X, y = make_blobs(n_samples=60, centers=centers, random_state=0, cluster_std=0.60)# 画出数据
plt.figure(figsize=(16, 10), dpi=144)
c = np.array(centers)
plt.scatter(X[:, 0], X[:, 1], c=y, s=100, cmap='cool');         # 画出样本
plt.scatter(c[:, 0], c[:, 1], s=100, marker='^', c='orange');   # 画出中心点from sklearn.neighbors import KNeighborsClassifier
# 模型训练
k = 5
clf = KNeighborsClassifier(n_neighbors=k)
clf.fit(X, y);# 进行预测
X_sample = [0, 2]
y_sample = clf.predict(X_sample);
neighbors = clf.kneighbors(X_sample, return_distance=False);# 画出示意图
plt.figure(figsize=(16, 10), dpi=144)
plt.scatter(X[:, 0], X[:, 1], c=y, s=100, cmap='cool');    # 样本
plt.scatter(c[:, 0], c[:, 1], s=100, marker='^', c='k');   # 中心点
plt.scatter(X_sample[0], X_sample[1], marker="x", c=y_sample, s=100, cmap='cool')    # 待预测的点for i in neighbors[0]:plt.plot([X[i][0], X_sample[0]], [X[i][1], X_sample[1]], 'k--', linewidth=0.6);    # 预测点与距离最近的 5 个样本的连线

  • KNN进行回归拟合
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np# 生成训练样本
n_dots = 40
X = 5 * np.random.rand(n_dots, 1)
y = np.cos(X).ravel()# 添加一些噪声
y += 0.2 * np.random.rand(n_dots) - 0.1# 训练模型
from sklearn.neighbors import KNeighborsRegressor
k = 5
knn = KNeighborsRegressor(k)
knn.fit(X, y);# 生成足够密集的点并进行预测
T = np.linspace(0, 5, 500)[:, np.newaxis]
y_pred = knn.predict(T)
knn.score(X, y)#output:0.98579189493611052# 画出拟合曲线
plt.figure(figsize=(16, 10), dpi=144)
plt.scatter(X, y, c='g', label='data', s=100)         # 画出训练样本
plt.plot(T, y_pred, c='k', label='prediction', lw=4)  # 画出拟合曲线
plt.axis('tight')
plt.title("KNeighborsRegressor (k = %i)" % k)
plt.show()

  • KNN 实现糖尿病预测
    %matplotlib inline
    import matplotlib.pyplot as plt
    import numpy as np
    import pandas as pd# 加载数据
    data = pd.read_csv('datasets/pima-indians-diabetes/diabetes.csv')
    print('dataset shape {}'.format(data.shape))
    data.head()data.groupby("Outcome").size()
    #Outcome
    #0    500 无糖尿病
    #1    268 有糖尿病
    #dtype: int64X = data.iloc[:, 0:8]
    Y = data.iloc[:, 8]
    print('shape of X {}; shape of Y {}'.format(X.shape, Y.shape))from sklearn.model_selection import train_test_split
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2);from sklearn.neighbors import KNeighborsClassifier, RadiusNeighborsClassifiermodels = []
    models.append(("KNN", KNeighborsClassifier(n_neighbors=2)))
    models.append(("KNN with weights", KNeighborsClassifier(n_neighbors=2, weights="distance")))
    models.append(("Radius Neighbors", RadiusNeighborsClassifier(n_neighbors=2, radius=500.0)))results = []
    for name, model in models:model.fit(X_train, Y_train)results.append((name, model.score(X_test, Y_test)))
    for i in range(len(results)):print("name: {}; score: {}".format(results[i][0],results[i][1]))#name: KNN; score: 0.681818181818
    #name: KNN with weights; score: 0.636363636364
    #name: Radius Neighbors; score: 0.62987012987from sklearn.model_selection import KFold
    from sklearn.model_selection import cross_val_score#kfold 训练10次,计算10次的平均准确率
    results = []
    for name, model in models:kfold = KFold(n_splits=10)cv_result = cross_val_score(model, X, Y, cv=kfold)results.append((name, cv_result))
    for i in range(len(results)):print("name: {}; cross val score: {}".format(results[i][0],results[i][1].mean()))#name: KNN; cross val score: 0.714764183185
    #name: KNN with weights; cross val score: 0.677050580998
    #name: Radius Neighbors; cross val score: 0.6497265892#模型训练
    knn = KNeighborsClassifier(n_neighbors=2)
    knn.fit(X_train, Y_train)
    train_score = knn.score(X_train, Y_train)
    test_score = knn.score(X_test, Y_test)
    print("train score: {}; test score: {}".format(train_score, test_score))#画出学习曲线
    from sklearn.model_selection import ShuffleSplit
    from common.utils import plot_learning_curveknn = KNeighborsClassifier(n_neighbors=2)
    cv = ShuffleSplit(n_splits=10, test_size=0.2, random_state=0)
    plt.figure(figsize=(10, 6), dpi=200)
    plot_learning_curve(plt, knn, "Learn Curve for KNN Diabetes", X, Y, ylim=(0.0, 1.01), cv=cv);#数据可视化
    # 从8个特征中选择2个最重要的特征进行可视化from sklearn.feature_selection import SelectKBestselector = SelectKBest(k=2)
    X_new = selector.fit_transform(X, Y)
    X_new[0:5]results = []
    for name, model in models:kfold = KFold(n_splits=10)cv_result = cross_val_score(model, X_new, Y, cv=kfold)results.append((name, cv_result))
    for i in range(len(results)):print("name: {}; cross val score: {}".format(results[i][0],results[i][1].mean()))# 画出数据
    plt.figure(figsize=(10, 6), dpi=200)
    plt.ylabel("BMI")
    plt.xlabel("Glucose")
    plt.scatter(X_new[Y==0][:, 0], X_new[Y==0][:, 1], c='r', s=20, marker='o');         # 画出样本
    plt.scatter(X_new[Y==1][:, 0], X_new[Y==1][:, 1], c='g', s=20, marker='^');         # 画出样本#2个特征和8个特征得到的结果差不多。分类效果达到了瓶颈

KNN对糖尿病进行测试,无法得到比较高的预测准确性

扩展阅读

这篇关于scikit-learn KNN实现糖尿病预测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/782855

相关文章

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

Kubernetes PodSecurityPolicy:PSP能实现的5种主要安全策略

Kubernetes PodSecurityPolicy:PSP能实现的5种主要安全策略 1. 特权模式限制2. 宿主机资源隔离3. 用户和组管理4. 权限提升控制5. SELinux配置 💖The Begin💖点点关注,收藏不迷路💖 Kubernetes的PodSecurityPolicy(PSP)是一个关键的安全特性,它在Pod创建之前实施安全策略,确保P

工厂ERP管理系统实现源码(JAVA)

工厂进销存管理系统是一个集采购管理、仓库管理、生产管理和销售管理于一体的综合解决方案。该系统旨在帮助企业优化流程、提高效率、降低成本,并实时掌握各环节的运营状况。 在采购管理方面,系统能够处理采购订单、供应商管理和采购入库等流程,确保采购过程的透明和高效。仓库管理方面,实现库存的精准管理,包括入库、出库、盘点等操作,确保库存数据的准确性和实时性。 生产管理模块则涵盖了生产计划制定、物料需求计划、

C++——stack、queue的实现及deque的介绍

目录 1.stack与queue的实现 1.1stack的实现  1.2 queue的实现 2.重温vector、list、stack、queue的介绍 2.1 STL标准库中stack和queue的底层结构  3.deque的简单介绍 3.1为什么选择deque作为stack和queue的底层默认容器  3.2 STL中对stack与queue的模拟实现 ①stack模拟实现

基于51单片机的自动转向修复系统的设计与实现

文章目录 前言资料获取设计介绍功能介绍设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP430/AVR等单片机设计 主要对象是咱们电子相关专业的大学生,希望您们都共创辉煌!✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 单片机