本文主要是介绍大数据分析Project-胰腺癌病人模型预测01,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Project 第一部分 数据处理
导入数据
> mydata <- read.csv("/users/xinyiwang/study/Rproject9/E6.csv")
查看数据中有缺失值的行
> mydata[!complete.cases(mydata),]id alb rdw pla tg NLR gender age death hs ventilation
13 1230112 2.2 13.2 188 92 NA 0 81 1.00 2.7699 0
62 122031 2.2 12.8 NA 81 33.000000 NA 76 1.00 2.6600 0
77 103111 NA 17.2 231 NA 9.333000 0 73 1.00 1.2220 0
91 5100022 3.3 12.9 312 199 13.799000 NA 73 0.00 11.3330 1
124 663111 NA 16.1 99 NA 6.111100 1 72 1.00 3.0001 1
144 271110 2.5 13.6 118 NA 2.811110 0 70 0.00 3.2221 0
197 407661 4.1 12.5 288 81 NA 0 65 1.00 12.0112 0
245 409911 3.8 12.9 178 NA 4.550100 1 61 0.00 18.2210 0
277 230110 2.9 16.0 NA 132 1.200000 0 58 1.00 2.3300 1
297 391110 2.8 15.9 NA 202 10.666552 1 55 1.00 7.6600 1
323 319911 2.9 16.3 312 NA 4.550011 1 53 1.00 14.3331 1
357 3001112 3.8 12.9 112 NA 1.234100 1 50 0.00 3.1220 0
401 2100111 4.1 15.8 30 NA 3.999900 0 47 1.00 2.0111 1
448 1002222 NA 12.2 NA NA NA NA 42 1.00 2.1100 0
449 200111 2.8 12.9 NA 201 3.220000 1 42 0.00 3.4445 1
484 2010111 3.1 13.1 322 NA 2.400000 1 39 1.00 2.1110 0
517 120331 3.3 17.9 188 209 NA 1 34 0.00 1.2230 1
541 311199 3.2 14.5 45 123 1.222000 NA 1 3.21 1.0000 NA
判断数据中有缺失值的行数,还有缺失值的数目
> missingdf <- mydata[!complete.cases(mydata),]
> nrow(missingdf)
[1] 18
> sum(is.na(mydata))
[1] 26
生成一个展示缺失值的表格
> library(mice)
> md.pattern(mydata)id rdw age death hs ventilation alb NLR gender pla tg
537 1 1 1 1 1 1 1 1 1 1 1 0
6 1 1 1 1 1 1 1 1 1 1 0 1
3 1 1 1 1 1 1 1 1 1 0 1 1
1 1 1 1 1 1 1 1 1 0 1 1 1
1 1 1 1 1 1 1 1 1 0 0 1 2
3 1 1 1 1 1 1 1 0 1 1 1 1
2 1 1 1 1 1 1 0 1 1 1 0 2
1 1 1 1 1 1 1 0 0 0 0 0 5
1 1 1 1 1 1 0 1 1 0 1 1 20 0 0 0 0 1 3 4 4 5 9 26
确实行数和缺失值相比于原始数据来说不是很多,因此先采用过滤所有有缺失行的数据
> newdata1 = mydata[complete.cases(mydata),]
此时还剩下537行数据
这篇关于大数据分析Project-胰腺癌病人模型预测01的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!