大数据分析Project-胰腺癌病人模型预测01

本文主要是介绍大数据分析Project-胰腺癌病人模型预测01，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Project 第一部分数据处理

导入数据

> mydata <- read.csv("/users/xinyiwang/study/Rproject9/E6.csv")

查看数据中有缺失值的行

> mydata[!complete.cases(mydata),]id alb  rdw pla  tg       NLR gender age death      hs ventilation
13  1230112 2.2 13.2 188  92        NA      0  81  1.00  2.7699           0
62   122031 2.2 12.8  NA  81 33.000000     NA  76  1.00  2.6600           0
77   103111  NA 17.2 231  NA  9.333000      0  73  1.00  1.2220           0
91  5100022 3.3 12.9 312 199 13.799000     NA  73  0.00 11.3330           1
124  663111  NA 16.1  99  NA  6.111100      1  72  1.00  3.0001           1
144  271110 2.5 13.6 118  NA  2.811110      0  70  0.00  3.2221           0
197  407661 4.1 12.5 288  81        NA      0  65  1.00 12.0112           0
245  409911 3.8 12.9 178  NA  4.550100      1  61  0.00 18.2210           0
277  230110 2.9 16.0  NA 132  1.200000      0  58  1.00  2.3300           1
297  391110 2.8 15.9  NA 202 10.666552      1  55  1.00  7.6600           1
323  319911 2.9 16.3 312  NA  4.550011      1  53  1.00 14.3331           1
357 3001112 3.8 12.9 112  NA  1.234100      1  50  0.00  3.1220           0
401 2100111 4.1 15.8  30  NA  3.999900      0  47  1.00  2.0111           1
448 1002222  NA 12.2  NA  NA        NA     NA  42  1.00  2.1100           0
449  200111 2.8 12.9  NA 201  3.220000      1  42  0.00  3.4445           1
484 2010111 3.1 13.1 322  NA  2.400000      1  39  1.00  2.1110           0
517  120331 3.3 17.9 188 209        NA      1  34  0.00  1.2230           1
541  311199 3.2 14.5  45 123  1.222000     NA   1  3.21  1.0000          NA

判断数据中有缺失值的行数，还有缺失值的数目

> missingdf <- mydata[!complete.cases(mydata),]
> nrow(missingdf)
[1] 18
> sum(is.na(mydata))
[1] 26

生成一个展示缺失值的表格

> library(mice)
> md.pattern(mydata)id rdw age death hs ventilation alb NLR gender pla tg   
537  1   1   1     1  1           1   1   1      1   1  1  0
6    1   1   1     1  1           1   1   1      1   1  0  1
3    1   1   1     1  1           1   1   1      1   0  1  1
1    1   1   1     1  1           1   1   1      0   1  1  1
1    1   1   1     1  1           1   1   1      0   0  1  2
3    1   1   1     1  1           1   1   0      1   1  1  1
2    1   1   1     1  1           1   0   1      1   1  0  2
1    1   1   1     1  1           1   0   0      0   0  0  5
1    1   1   1     1  1           0   1   1      0   1  1  20   0   0     0  0           1   3   4      4   5  9 26

确实行数和缺失值相比于原始数据来说不是很多，因此先采用过滤所有有缺失行的数据

> newdata1 = mydata[complete.cases(mydata),]

此时还剩下537行数据

这篇关于大数据分析Project-胰腺癌病人模型预测01的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

大数据分析Project-胰腺癌病人模型预测01

Project 第一部分数据处理

相关文章

Python数据分析与可视化的全面指南(从数据清洗到图表呈现)

详解如何使用Python从零开始构建文本统计模型

SpringBoot整合Sa-Token实现RBAC权限模型的过程解析

idea中project的显示问题及解决

Spring Security基于数据库的ABAC属性权限模型实战开发教程

Java的IO模型、Netty原理解析

基于Flask框架添加多个AI模型的API并进行交互

C#集成DeepSeek模型实现AI私有化的流程步骤(本地部署与API调用教程)

SpringBoot快速接入OpenAI大模型的方法(JDK8)

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

大数据分析Project-胰腺癌病人模型预测01

Project 第一部分 数据处理

相关文章

Project 第一部分数据处理