R语言逻辑回归、随机森林、SVM支持向量机预测Framingham心脏病风险和模型诊断可视化

本文主要是介绍R语言逻辑回归、随机森林、SVM支持向量机预测Framingham心脏病风险和模型诊断可视化，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

最近我们被客户要求撰写关于心脏病的研究报告，包括一些图形和统计输出。

简介

世界卫生组织估计全世界每年有 1200 万人死于心脏病。在美国和其他发达国家，一半的死亡是由于心血管疾病。心血管疾病的早期预后可以帮助决定改变高危患者的生活方式，从而减少并发症。本研究旨在查明心脏病最相关/风险因素，并使用机器学习预测总体风险。

数据准备

来源

该数据集来自对居民正在进行的心血管研究。分类目标是预测患者未来是否有 10 年患冠心病 (CHD) 的风险。数据集提供了患者的信息。它包括超过 4,000 条记录和 15 个属性。

变量

每个属性都是一个潜在的风险因素。有人口、行为和医疗风险因素。

人口统计：
• 性别：男性或女性（标量）
• 年龄：患者年龄；（连续 - 尽管记录的年龄已被截断为整数，但年龄的概念是连续的）
行为
• 当前吸烟者：患者是否是当前吸烟者（标量）
• 每天吸烟数：此人一天内平均吸烟的香烟数量。（可以认为是连续的，因为一个人可以拥有任意数量的香烟，甚至半支香烟。）
• BP Meds：患者是否服用降压药（标量）
•中风：患者之前是否有中风（标量）
• Hyp：患者是否患有高血压（标量）
• 糖尿病：患者是否患有糖尿病（标量）
• Tot Chol：总胆固醇水平（连续）
• Sys BP：收缩压（连续）
• Dia BP：舒张压（连续）
• BMI：体重指数（连续）
• 心率：心率（连续 - 在医学研究中，心率等变量虽然实际上是离散的，但由于存在大量可能值而被认为是连续的。）
• 葡萄糖：葡萄糖水平（连续）
预测变量（预期目标）
• 10 年患冠心病 CHD 的风险（二进制：“1”表示“是”，“0”表示“否”）

心脏病预测

# 获取数据
rdaa <- read.csv（路径）

# 这边可以考虑增加变量收缩压与舒张压之差、描述收缩压、舒张压与高血压等级的变量# 看数据结构
str(ata)

# 考虑增加变量bplevel
raw_data <- sqldf# 对变量类别进行区分ra_da <- map
str(ra_da )

数据预处理

查看和处理缺失值

# 这里我们使用mice包进行缺失值处理
aggr

matplot

由上图可以看出，除了glucose变量，其它变量的缺失比例都低于5%，而glucose变量缺失率超过了10%。对此的处理策略是保留glucose变量的缺失值，直接删除其它变量的缺失值。现在处理glucose的缺失值，

# 处理glucose列
lee_a <- subset & !is.na & !is.na & !is.na & !is.na & !is.na
# 查看glce与其它变量的线性相关性确定mice的填充策略
gcog = glm(lcse ~ .)
smry(glseg)

填充，排除不重要的变量。至于为什么不选diaBP，主要是后面的相关性分析中，这两个变量会造成多重共线性。

mice%in%  m=5,  "pmm", mai = 50, sd=2333, pint= FALSE)
#查看填充结果
smr(mc_od)

# 查看原始数据和插补后的数据分布情况
epot(mi_md)

sipt(mcod, pch=12)

# 填充数据
mi_t <- complete
fir_aa$loe <- miout$guose
sum(is.na(flda))

删除重复行

# 查看有无重复行并删除重复行
sum(duplicated

comd_ata <- comdta[!duplicated(), ]

查看离群点

#查看异常值
gplot(coedta)+geom_boxplot(ae(ftr(1),age))

ggplot(copd_dta)+geom_boxplot(aes(factor(1cigDy))

ggplot(coea)+geom_boxplot(aes(factor(1),ttl))

ggplot(colt_ta)+geom_boxplot(aes(factor(1),syBP))

ggplot(comeaa)+geom_boxplot(aes(factor(1),daP))

ggplot()+gem_boxplot(aes(factor(1),BMI))

# 查看cigsPerDay
cigs_sub <- comled_dta
# 查看totChol，删除异常点
# 查看sysBP, 删除异常点
# 查看BMI

totChol: 总胆固醇水平大于240mg/dl已属于非常高，故删去水平值为600mg/dl的记录。 sysBP: 去掉收缩压为295mg/dl的记录

# 删除各变量离群点
competedata

# 分类型变量列联分析
ggplot+geom_boxplot

ggplot+geom_boxplot(aes,totChol,fill=TenYerCHD))

cometddata %>% fitr %>% 
ggplot

由图像知，glucose和hearRate变量有不显着的风险

table1=table
chisq.test

table1

table2=table
chisq.test

table3=table
chisq.test

chisq.test

ggpairs

diaBP和sysBP有多重共线性的问题。

currentSmoker变量可能不显着，下面进入模型部分。

模型

# 划分数据集split = sample.splittrain = subset

逻辑回归

# 逻辑回归模型 - 使用所有变量
fultaog = glm
summary(fulog)

fldaog = glm
summary(fuatLg)

prdts = predict
glm_le <- table

ACCU

随机森林

rfoel <- randomForest
# 获得重要性
imprace

# 选择重要的因素
rfmdel <- randomForest
# 误差
plot


# 获取重要性
ggplot +geom_bargeom_text

这里有患病风险的误差不降反升，需要探究其中原因

# 绘制分类图像
pred<-predict
pdou_1<-predict  #输出概率
table <- table
sum(diag/sum #预测准确率

plot(margin

SVM支持向量机

# 先进行模型调优
tud <- tune.svm
summary(tud )

# 使用turning函数得到最佳参数设置支持向量机
mel.nd <- svm
cost=tuned$
summary(modted)

# 调用predict函数基于刚配置好的SVM模型进行类标号的预测：
sm.ne.ed <- predict
sv.tuedtble <- table
sm.ue.tbe

acy.s.vm <- sum(diag)/sum

模型诊断

根据上面三个模型的结果，可以看出预测结果的类别数量分布非常不均衡

sum

sum(TeYaHD == 0)

针对这一现象，需要采取方法平衡数据集。

这篇关于R语言逻辑回归、随机森林、SVM支持向量机预测Framingham心脏病风险和模型诊断可视化的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

R语言逻辑回归、随机森林、SVM支持向量机预测Framingham心脏病风险和模型诊断可视化

简介

相关视频：R语言逻辑回归（Logistic回归）模型分类预测病人冠心病风险

【视频】支持向量机SVM、支持向量回归SVR和R语言网格搜索超参数优化实例

视频：从决策树到随机森林：R语言信用卡违约分析信贷数据实例

数据准备

来源

变量

心脏病预测

数据预处理

删除重复行

查看离群点

模型

逻辑回归

随机森林

SVM支持向量机

模型诊断

相关文章

Go 语言中的select语句详解及工作原理

C语言函数递归实际应用举例详解

Spring Security基于数据库的ABAC属性权限模型实战开发教程

基于Python打造一个可视化FTP服务器

SpringKafka消息发布之KafkaTemplate与事务支持功能

Python中随机休眠技术原理与应用详解

Java的IO模型、Netty原理解析

Python Dash框架在数据可视化仪表板中的应用与实践记录

基于Flask框架添加多个AI模型的API并进行交互

C语言中的数据类型强制转换