和鲸携手上海交大医学院张维拓老师,混合式教学聚焦R语言医学数据分析,从图表开始复现顶刊论文

本文主要是介绍和鲸携手上海交大医学院张维拓老师,混合式教学聚焦R语言医学数据分析,从图表开始复现顶刊论文,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

历时一个月,和鲸社区内的 R 语言医学数据分析训练营暂告一段落。

本次训练营由上海交通大学医学院副研究员张维拓老师联合和鲸社区共同发起,是面向医学生、临床医生及相关从业人员开展的医学数据科学推广公益活动,旨在帮助大家快速入门 R 语言,了解临床研究标准分析流程,并能在论文复现的过程中学会做出符合顶刊发表要求的论文图表。

考虑到报名的大多数医学专业的学员可能不具备 R 语言编程基础,本次活动别开生面地采用了“线上训练营+线下工作坊”的混合式教学模式:线上训练营提供三份“提前学”教案,搭配张老师的讲解,帮助大家打下必要的医学数据分析的概念和技术基础;线下工作坊拔高难度,学员在老师和助教的指导下完成分组实操练习。

线上训练营:顶刊论文复现从图表开始

线上训练营的目标是带领大家复现 2015 年发表于 NEJM 的 A Randomized Trial of Intensive versusStandard Blood-Pressure Control(又被称为 SPRINT 研究)论文中的主要统计分析方法,并制作符合论文发表要求的图表

医学论文中的图表制作一直是个难点,对于医学生来说很少有特定的课程专门教授图表的制作,计算机或统计学专业的学生也无法胜任,因为它不仅需要编程技术,更需要对专业知识的理解与分析思路。张维拓老师在线上第一节课中讲解医学数据分析的三个基本概念——“数据+科学问题+分析框架”时就说到,很多学生一上来就做很多各式各样的图表,但关注的问题是散的,这是不对的。

图:线上训练营的三次课程

首次课程从如何用 R 画出一张基线特征表(简称“基线表”)开始,通过这张表可以观察研究人群的代表性和可比性。张老师为大家讲解了医学数据分析的基本概念,以及零基础的同学也能听懂的用 R 处理数据的基本操作,带领大家一步步画出这张大多数临床研究报告或论文中的 Table1 。

第二次课程的主题为长表分析,长表格式是多次随访数据比较推荐的记录形式。这节课的内容包括了宽表转长表的方法、长表分析的核心技巧(分组汇总)、以及基于 ggplot和 ggpubr 的随访统计图的绘制。过程中,张老师也穿插了讲解了一些临床研究的基本概念,比如观察指标和结局之间的差异。

第三次课作为线上训练营的收官,聚焦于主要结果图和主要结果表的制作——这 1 图 1 表用于支撑论文的核心观点,囊括了全文 80% 的精华。为了便于初学者更快上手,张老师还自编了个包名叫 litertable,可用于快速生成临床医学研究中的常用表格。过程中,学员们进一步理解了,技术只是手段,思维和逻辑才是主导。

我们在进行医学结局判定的时候,是不能以,或者说不能主要以单一的医学实践作为我们的研究重点的,这也是为什么医学数据分析很多时候只得靠医生来做,而不能靠专业的数据分析人员来做。

图:线上训练营的第三次课课件展示

线下 workshop:3 小时顶刊论文复现实操

线下 workshop 是线上训练营的进阶,以“老师讲解+分组实操”的形式,要求参与的学员现场复现 2016 年发表于 NEJM 的论文 Randomized Trial of Introduction of Allergenic Foods in Breast-Fed Infants(可简称 Eat 研究 )。来自仁济医院、瑞金医院、上海第九人民医院、上海交大医学院的近 30 名临床医生与医学生共同参与

图:线下工作坊,张维拓老师正在讲解课件

筹备时,张老师曾担忧学生会不会因为跟不上进度而失去信心,产生畏难情绪,因为线下的课程内容在数据量增大的同时,更设置了五项挑战任务,除了线上训练营所涉及到的绘制基线表、主要结果图之外,还要求学生自主进行探索性分析,在原有结论的基础上进一步深入挖掘。

而令人喜出望外的是,现场的所有学员都十分积极主动,即使过程中遇到了解不了的疑难问题,也能在老师和助教的帮助下坚持探索,最终有 60% 的小组都顺利完成了 5 项挑战任务,其他小组也平均完成了 3-4 项,并收获了对应的纪念礼品。

图:学生们正在分组实操

图:张维拓老师与5位学生的合影

活动结束后,我们收集了大家的反馈。

来自上海交通大学医学院护理学院的何同学从没有用过 R 语言,这次坚持“跑完了整个马拉松”,她说:“作为小白听线上课程很受益,线下课程内容很丰富,但我没来得及做完所有挑战,希望后续能通过一次次活动逐步提升能力,更高效率地完成培训。”

来自仁济医院的王同学虽然过去有跑通过别人的代码,但是没有自己编写代码的经验,这次只参加了线下工作坊,他说:“感谢张老师,内容很专业,对我们科研有很大帮助!希望以后能有更多类似培训。”

还有几名参加了线上训练营但未能来到现场的同学,不约而同地称赞了论文复现实操这样的形式。

活动的背后

“线上训练营+线下工作坊”,事实上,这也是和鲸社区第一次以二者相结合的形式举办活动。过程中,不管是张维拓老师还是和鲸运营人员都花费了成倍的时间精力,但我们很开心地看到,这样的投入确实让学员们得到了更好的学习体验。

感谢张维拓老师,从确定活动举办开始毫无保留的付出,到策划沟通时一切为学生考虑,还有上课时专业与风趣兼备,张老师的优秀与热情感染了大家,激发了大家探索医学数据分析的兴趣。

很高兴能够有机会同和鲸平台共同组织此次 R 语言医学数据分析训练营线下工作坊活动。本次活动通过和鲸平台现场演示的形式,帮助零基础医学生上手 R 语言,通过复现医学顶刊论文,掌握临床研究数据分析思路和图表制作方法。活动过程中,同学积极提问,互相帮助沟通,多数同学都完成了活动挑战任务,对医学数据的处理和使用有了更深的认知。此次线下工作坊,帮助更多医学专业相关的同学打开了医学数据 R 语言分析的大门,也为后续的线下工作坊活动打下了良好范本。

图:张维拓老师正在讲解教案

另外,和鲸为本次活动提供全流程运营与实训平台支持。训练营和 Workshop 都是和鲸社区内的常规活动形式,实操所使用的工具是和鲸旗下的数据科学教学-实训平台 ModelWhale,云端环境让学生“打开网页学编程”,数据、算力自动连接,学生可以一键复现老师的教案,Jupyter Notebook 搭配简单易用的版本管理,能让初学者放心大胆地编写与修改,同时平台支持作业的在线收发与自动评审,节省老师时间。

图:和鲸社区活动页

最后感谢南京师范大学教授胡传鹏老师、中国科学院新疆理化技术研究所胡鹏伟博士对本次活动宣推上的贡献。应同学们的强烈呼声,明年张维拓老师或将与和鲸共同举办二期工作坊,敬请期待!

如果您对本次活动感兴趣,或也想以“线上训练营+线下工作坊”这样的形式举办类似数据科学实践活动,欢迎点此链接联系我们(添加时烦请备注“医学workshop”)。您也可以点此链接免费试用全程支持本次活动开展的 ModelWhale 平台,了解、体验论文复现过程。

这篇关于和鲸携手上海交大医学院张维拓老师,混合式教学聚焦R语言医学数据分析,从图表开始复现顶刊论文的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/570140

相关文章

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

题目: 题解: static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num & MASK1) == 0) {return

MiniGPT-3D, 首个高效的3D点云大语言模型,仅需一张RTX3090显卡,训练一天时间,已开源

项目主页:https://tangyuan96.github.io/minigpt_3d_project_page/ 代码:https://github.com/TangYuan96/MiniGPT-3D 论文:https://arxiv.org/pdf/2405.01413 MiniGPT-3D在多个任务上取得了SoTA,被ACM MM2024接收,只拥有47.8M的可训练参数,在一张RTX

如何确定 Go 语言中 HTTP 连接池的最佳参数?

确定 Go 语言中 HTTP 连接池的最佳参数可以通过以下几种方式: 一、分析应用场景和需求 并发请求量: 确定应用程序在特定时间段内可能同时发起的 HTTP 请求数量。如果并发请求量很高,需要设置较大的连接池参数以满足需求。例如,对于一个高并发的 Web 服务,可能同时有数百个请求在处理,此时需要较大的连接池大小。可以通过压力测试工具模拟高并发场景,观察系统在不同并发请求下的性能表现,从而

C语言:柔性数组

数组定义 柔性数组 err int arr[0] = {0}; // ERROR 柔性数组 // 常见struct Test{int len;char arr[1024];} // 柔性数组struct Test{int len;char arr[0];}struct Test *t;t = malloc(sizeof(Test) + 11);strcpy(t->arr,

C语言指针入门 《C语言非常道》

C语言指针入门 《C语言非常道》 作为一个程序员,我接触 C 语言有十年了。有的朋友让我推荐 C 语言的参考书,我不敢乱推荐,尤其是国内作者写的书,往往七拼八凑,漏洞百出。 但是,李忠老师的《C语言非常道》值得一读。对了,李老师有个官网,网址是: 李忠老师官网 最棒的是,有配套的教学视频,可以试看。 试看点这里 接下来言归正传,讲解指针。以下内容很多都参考了李忠老师的《C语言非