使用logistic regression 处理 良/恶性肿瘤分类任务 案例

本文主要是介绍使用logistic regression 处理 良/恶性肿瘤分类任务 案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.读入数据

2.随机切分数据集,把数据集切分成训练集和测试集

3.对数据集进行标准化

4.创建logistic regression 模型,在训练集上训练数据

5.在测试集上进行预测分类

logistic regression 预测的准确率:0.9883040935672515

# -*- coding:utf-8 -*-
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")if __name__ == '__main__':print "hello"# 创建特征列表。column_names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape','Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin','Normal Nucleoli', 'Mitoses', 'Class']# 使用pandas.read_csv函数从互联网读取指定数据。data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data',names=column_names)# print data# 将?替换为标准缺失值表示。data = data.replace(to_replace='?', value=np.nan)# 丢弃带有缺失值的数据(只要有一个维度有缺失)。data = data.dropna(how='any')# 输出data的数据量和维度。print data.shape# 使用sklearn.cross_valiation里的train_test_split模块用于分割数据。from sklearn.model_selection import train_test_split# 随机采样25%的数据用于测试,剩下的75%用于构建训练集合。X_train, X_test, y_train, y_test = train_test_split(data[column_names[1:10]], data[column_names[10]],test_size=0.25, random_state=33)# 从sklearn.preprocessing里导入StandardScaler。from sklearn.preprocessing import StandardScaler# 从sklearn.linear_model里导入LogisticRegression与SGDClassifier。from sklearn.linear_model import LogisticRegressionfrom sklearn.linear_model import SGDClassifier# 标准化数据,保证每个维度的特征数据方差为1,均值为0。使得预测结果不会被某些维度过大的特征值而主导。ss = StandardScaler()X_train = ss.fit_transform(X_train)X_test = ss.transform(X_test)# 初始化LogisticRegression与SGDClassifier。lr = LogisticRegression()sgdc = SGDClassifier()# 调用LogisticRegression中的fit函数/模块用来训练模型参数。lr.fit(X_train, y_train)# 使用训练好的模型lr对X_test进行预测,结果储存在变量lr_y_predict中。lr_y_predict = lr.predict(X_test)# 调用SGDClassifier中的fit函数/模块用来训练模型参数。sgdc.fit(X_train, y_train)# 使用训练好的模型sgdc对X_test进行预测,结果储存在变量sgdc_y_predict中。sgdc_y_predict = sgdc.predict(X_test)# 从sklearn.metrics里导入classification_report模块。from sklearn.metrics import classification_report# 使用逻辑斯蒂回归模型自带的评分函数score获得模型在测试集上的准确性结果。print 'Accuracy of LR Classifier:', lr.score(X_test, y_test)# 利用classification_report模块获得LogisticRegression其他三个指标的结果。print classification_report(y_test, lr_y_predict, target_names=['Benign', 'Malignant'])# 使用随机梯度下降模型自带的评分函数score获得模型在测试集上的准确性结果。print 'Accuarcy of SGD Classifier:', sgdc.score(X_test, y_test)# 利用classification_report模块获得SGDClassifier其他三个指标的结果。print classification_report(y_test, sgdc_y_predict, target_names=['Benign', 'Malignant'])

 

这篇关于使用logistic regression 处理 良/恶性肿瘤分类任务 案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1023734

相关文章

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

无人叉车3d激光slam多房间建图定位异常处理方案-墙体画线地图切分方案

墙体画线地图切分方案 针对问题:墙体两侧特征混淆误匹配,导致建图和定位偏差,表现为过门跳变、外月台走歪等 ·解决思路:预期的根治方案IGICP需要较长时间完成上线,先使用切分地图的工程化方案,即墙体两侧切分为不同地图,在某一侧只使用该侧地图进行定位 方案思路 切分原理:切分地图基于关键帧位置,而非点云。 理论基础:光照是直线的,一帧点云必定只能照射到墙的一侧,无法同时照到两侧实践考虑:关

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于