收获的九月——《大数据实践课》成果展示

2024-04-13 19:58

本文主要是介绍收获的九月——《大数据实践课》成果展示,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

9df190f273ef4d747c3e309439f1bfb3.png

《大数据实践课》是清华大学大数据能力提升项目必修培养环节,旨在以企业实际项目需求为驱动,锻炼学生和真实用户之间的交流能力、需求获取能力、团队合作能力,实现学生自身综合能力、科研能力及求职就业竞争力的提高。

实践教学最具特色的地方在于,将来自全校理、工、文、商、医不同学科专业背景的学生分为A类(面向商科、人文社科等非信息类专业背景学生)和B类(面向计算机、软件、自动化等信息类专业背景学生),A、B类同学自由组队,分工明确,以数据驱动的“真问题,真数据”、校内外双导师制的共同指导下完成项目任务。 

实践中不同专业院系的同学们都参与了哪些实际项目、解决了什么问题、他们都有什么收获呢?让我们一探究竟。

01

实践单位:首都医科大学附属同仁医院

项目名称:病理性近视的AI诊断

小组成员:

海家瑞 水利工程

龚傲凡 水利工程

曹  卫 生命科学学院

吴泽昆 水利水电工程系

左成文 电子工程

汪子奇 数据科学与信息技术

研究目标:我国近视患病人数居世界首位,已成为重大公共卫生问题,甚至在某些地区已经成为了首位不可逆性的致盲眼病。病理性近视的传统筛查对硬件要求较高,需要专业医师,依赖进口设备,因而普及率不高。我们要实现AI辅助综合筛查,大大节约人力、物力和时间,提高普及率,降低成本。

实践课的成果:训练了病理性近视影像学图像识别模型,搭建了病理性近视影像学智能诊断平台。经验证,病理性近视诊断平台具有被应用于辅助病理性近视诊断的潜力,能够辅助眼科医生诊断病理性近视,提升该疾病医疗诊断的工作效率。

部分成果展示

77ed4c87d6812b1a3a160c6a15878704.png

图1 AI诊断可视化平台

3940ec5e799d3c61fbb20dd165f4fd8c.png

图2 模型训练结果对比

同学们的收获:

吴泽昆:本课程让我将课程学到的知识体系真正投入到实际项目的实践中,主要开展了数据前期处理和可视化平台搭建的工作,使我对大数据技术的应用有了更深入的认识。并且在小组合作的过程中,我了解到项目合作开发中可能出现的问题以及解决方式,也积累了一定的项目经验,让我受益匪浅。

龚傲凡:本次实践通过开展数据标注、数据集构建、模型训练及结果分析等工作,我对大数据技术的原理和实际应用的理解更加深刻,并积累了与团队成员合作开发的经验,希望以后还有更多机会参与到实际项目当中。

海家瑞:在本次实践课程中,我们真正接触了大数据分析、人工智能技术的实际应用场景,与理论课程不同,我们在课程中参与了更多数据整理、数据集构建的前期工作,同时也对眼科相关知识有了许多了解。

       企业导师点评:

非常感谢大数据实践课提供的这次合作机会,留给我印象很深的是项目负责的老师们都非常敬业、专业且负责,协助解决项目进行中的问题。同学们非常优秀且勤奋,这个项目涉及了大量的工作量和专业知识,同学们最后交上了一份非常亮眼的答卷。

医学领域的眼底AI诊断是目前研究的热点和发展方向,期待能够继续在这个实践项目的基础上进行后续连贯研究。

02

实践单位:北京智慧星光信息技术有限公司

项目名称:全国热点事件的聚合与公众情绪分析

小组成员:

刘愉之 政治学

潘莹莹 政治学

研究目标:该企业存在对互联网热点事件情绪分析的需求。但现有情绪分析能力有两个弱点:缺乏英文情绪分析能力;中文情绪分析仅包含正面和负面两个维度,且情绪词典准确度不足。项目任务主要有两个:

(1)整理高精度的中英文情感词典

(2)训练深度学习模型。

实践课的成果: 

1.基于实践中的数据标注结果,应用到了对情绪数据情感预测之中

2.情感词典用于企业后续项目

部分成果展示

21910d2830eacbbcb352bacfc3ada560.png

图1.词典示例

5051c8e8b0fa9f559520c356c2748d61.png

图2.四种模型

c917759581023ca0bb4cd452ee1c34f6.png

图3.不同分类准确度

同学们的收获:

刘愉之:在项目中,我学习了情感词典的构建方法并进行实践,完成了文本标注,挑战了未学习过的Bert模型、Bi_lstm_attention模型和Roberta模型。

       企业导师点评:

两位同学在实习期勤奋认真,有很强的适应能力和创新意识,能够利用所学的知识迅速投入到实际工作中,调研了前沿的情绪识别方法,建立了一套标注的情绪体系;收集了和整理的大量的情绪知识库,包括中英文;整理和标注了一批标注情绪语料集,为后续算法训练提供了巨大帮助;设计了情绪识别算法模型,并完成了多种深度学习算法训练以及结合训练的效果验测。同学们圆满地完成了热点事件情绪识别项目,为情绪识别后续版本的优化提供大量基础知识库,以及各种深度学习算法效果验测,成果突出。

03

实践单位:北京妇产医院

项目名称:妇瘤科数据库与随访

小组成员:

张锦文 新闻与传播

梁铭轩 建设管理

郑和帆 建设管理

杨璐嘉 科学技术史

郭晓蕾 传播学

研究目标:在医疗大数据体系尚不健全的大环境下,北京妇产医院积累的大量数据需要进行分类整合、数据清洗以及可视化等操作。

实践课的成果:建立了DWF数据库,实现了PC端和移动端管理,并实现多个主题的可视化呈现。产科和肿瘤科的DWF数据库已经可以测试使用(PC端+移动端),为多个部门的数据查询和数据编辑提供应用提供了便利;当前可以适用的部门包括:手术室、咨询台、妇科、肿瘤科等。

       部分成果展示

111f93bbc305819b30e1685e8635a3ca.png

图1.PC端数据查询与可视化(基于DWF)

fe7ba0fae42f70b2973e28d77b2b8272.png

图2.移动端数据查询与可视化(Pad)

97f9a69a1c013b19f3d2145a30b92d3b.png

图3.职能权限分设机制


       同学们的收获:

张锦文:在老师的帮助下,我不仅学习到许多产科、妇瘤科的医学知识,还尝试了DWF数据库的学习和echart平台的可视化操作。一方面,在数据清洗过程中,我意识到“整理文字信息”环节存在巨大的工程量,这让我对数据处理的整个流程有了更完整的认识,对其中的技术难点和时间控制有了更深的体悟;另一方面,过去面对代码我总有畏难情绪,在可视化学习时基础不扎实,这次通过“干中学”解锁了许多图表代码,挖掘出一些有趣的结论,很有成就感! 

        企业导师点评:

这类课程非常有意义,学生不是简单学习课本知识,而是利用企业提供的场景及数据解决企业的实际问题,同时在这个过程中获得更好的沟通、交流及获取信息的能力,加深对于大数据和真实世界的理解。建议学校多办此类课程,并在后续保持与企业之间的联系,使短暂的交流成果能够最终落地。

04

实践单位:北京天坛医院

项目名称:基于头CT的急性脑出血颅内血肿测量与早期血肿演变预测算法的研究

小组成员:

唐文丁 医学物理与工程

严振峣 核科学与技术

宋雨杉 安全科学与工程

张旨晗 医学物理与工程

研究目标:脑出血是最常见的脑血管病,急性脑出血有较高的病死率及病残率,发病早期在多种因素作用下,血肿极其不稳定,有逐渐扩大的趋势。传统脑部CT影像学可以对检查时颅内情况实时体现,但其并不能对出血量、血肿形态、内部结构等信息进行提示。本课题拟以急性脑出血为研究对象,希望通过一些智能化的方法对脑部CT影像进行智能化处理,为临床医生提供客观有用信息,为治疗决策的选择提供重要依据,最终提升急性脑出血患者的治疗转归。

实践课的成果:实现了对颅骨、大脑软组织以及血肿部分的分割,并建立了三维可视化模型,实现了对脑出血的量、形态、结构进行测量和判断;开发了集成脑出血量计算结果、三维可视化等内容在内的用户图形界面。

部分成果展示

84d046c7fc6f45e0503542bbe02d62ce.png

图1.脑部分割结果的三维可视化

8b2ab6e184047f11d51ba189d3f4cb55.png

图2.GUI显示不同断层的CT扫描结果

17d7b62c78b03f489aa153c5449a65ca.png

图3. GUI显示脑部分割结果三维可视化及相关信息


       同学们的收获:

唐文丁:在这个项目中我学到了CT医学图像的简单处理方法,包括图像分割、三维可视化、特征提取等,对我将来在医学物理的科研中处理图像有所帮助。同时通过更加贴近临床的实践体验,也了解了医生们的思考方式和需求。

张旨晗:在本次实践中,我学到了CT图像的一些处理算法(比如生长算法等),以及MATLAB中一些功能的实现、血肿特征提取等知识。我自己的博士课题是有关SPECT/CT系统上的SPECT系统设计和算法研究,本次暑期实践让我对CT有关知识有了更加深刻的理解和认识。

企业导师点评:

同学们利用12598例急性缺血性卒中患者脑影像数据以及健康人脑网络模板,获得116个脑区的梗死病灶相关脑网络数据,结合患者的功能预后评分,采用SVM、随机森林、深度神经网络等机器学习算法,构建了急性缺血性卒中功能预后预测模型,准确率达62%。在项目过程中积极学习掌握MRIcro、SPM等专业影像软件的应用。

05

实践单位:中原银行

项目名称:群体智能算法应用实践

小组成员:

张原宇 化学工程

曹相洲 管理科学与工程

陈宇 环境工程

张莉均 仪器仪表工程

周璐 教育经济与管理

研究目标:中原银行从2018年开始实施全面数字化转型战略,随着数据量的日益增大,数据之间的逻辑关系也日益复杂。本项目的需求是探索各类算法在实际调度场景中的效果,尤其希望在动态调度方式下获得有效的解决方案。根据现有样本、标签及数据情况,探索实际场景中动态调度如何利用无监督、半监督学习生成有效的任务动态优先级模型及优化效果量化监控。

实践课的成果:尝试探索了多种群体优化算法,根据任务间依赖关系进行动态调度,并加入实际数据中的起批时间等限制条件,将系统任务运行总时间优化到13小时左右,并设计了相关量化指标评价调度效果。

       部分成果展示

ed2365002e87d2a4890a72794fa222fb.png

图1.蚁群算法任务调度可视化结果

5266b35df9cad8df55ffd5d1ca660e07.png

图2.遗传算法调度时长与运行时长

475a1105e0e4156dc8d6ffc1ddc8e339.png

图3.队列调度算法运行时间


       同学们的收获:

陈宇:增强了对大数据的应用端(金融系统离线任务调度)的了解,以及对工具端python的掌握。

张莉均:这次大数据应用实践使我有机会对大数据所使用到的高级数据结构深入了解和应用,培养和提高了代码能力,对金融大数据应用产生了具体的认识。

周璐:这次项目实践让我学习了解了群体智能优化算法,并初步尝试了将算法应用到企业实际数据相关业务中。

企业导师点评:

在项目实践过程中,各位同学均表现优异,能够独立思考、积极攻克项目难点,表现出良好的专业能力和敬业精神,对我行调度系统的建设提供了更加广阔的思路。在后续的工作中,希望能够继续加强合作,在金融科技领域共同探索,发挥双方优势,实现合作共赢。

3ae665a02494fdc39bb2b63442cb62f4.png

这篇关于收获的九月——《大数据实践课》成果展示的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901082

相关文章

C++必修:模版的入门到实践

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:C++学习 贝蒂的主页:Betty’s blog 1. 泛型编程 首先让我们来思考一个问题,如何实现一个交换函数? void swap(int& x, int& y){int tmp = x;x = y;y = tmp;} 相信大家很快就能写出上面这段代码,但是如果要求这个交换函数支持字符型

【服务器运维】MySQL数据存储至数据盘

查看磁盘及分区 [root@MySQL tmp]# fdisk -lDisk /dev/sda: 21.5 GB, 21474836480 bytes255 heads, 63 sectors/track, 2610 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytesSector size (logical/physical)

亮相WOT全球技术创新大会,揭秘火山引擎边缘容器技术在泛CDN场景的应用与实践

2024年6月21日-22日,51CTO“WOT全球技术创新大会2024”在北京举办。火山引擎边缘计算架构师李志明受邀参与,以“边缘容器技术在泛CDN场景的应用和实践”为主题,与多位行业资深专家,共同探讨泛CDN行业技术架构以及云原生与边缘计算的发展和展望。 火山引擎边缘计算架构师李志明表示:为更好地解决传统泛CDN类业务运行中的问题,火山引擎边缘容器团队参考行业做法,结合实践经验,打造火山

SQL Server中,查询数据库中有多少个表,以及数据库其余类型数据统计查询

sqlserver查询数据库中有多少个表 sql server 数表:select count(1) from sysobjects where xtype='U'数视图:select count(1) from sysobjects where xtype='V'数存储过程select count(1) from sysobjects where xtype='P' SE

数据时代的数字企业

1.写在前面 讨论数据治理在数字企业中的影响和必要性,并介绍数据治理的核心内容和实践方法。作者强调了数据质量、数据安全、数据隐私和数据合规等方面是数据治理的核心内容,并介绍了具体的实践措施和案例分析。企业需要重视这些方面以实现数字化转型和业务增长。 数字化转型行业小伙伴可以加入我的星球,初衷成为各位数字化转型参考库,星球内容每周更新 个人工作经验资料全部放在这里,包含数据治理、数据要

9 个 GraphQL 安全最佳实践

GraphQL 已被最大的平台采用 - Facebook、Twitter、Github、Pinterest、Walmart - 这些大公司不能在安全性上妥协。但是,尽管 GraphQL 可以成为您的 API 的非常安全的选项,但它并不是开箱即用的。事实恰恰相反:即使是最新手的黑客,所有大门都是敞开的。此外,GraphQL 有自己的一套注意事项,因此如果您来自 REST,您可能会错过一些重要步骤!

如何在Java中处理JSON数据?

如何在Java中处理JSON数据? 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们将探讨在Java中如何处理JSON数据。JSON(JavaScript Object Notation)作为一种轻量级的数据交换格式,在现代应用程序中被广泛使用。Java通过多种库和API提供了处理JSON的能力,我们将深入了解其用法和最佳

两个基因相关性CPTAC蛋白组数据

目录 蛋白数据下载 ①蛋白数据下载 1,TCGA-选择泛癌数据  2,TCGA-TCPA 3,CPTAC(非TCGA) ②蛋白相关性分析 1,数据整理 2,蛋白相关性分析 PCAS在线分析 蛋白数据下载 CPTAC蛋白组学数据库介绍及数据下载分析 – 王进的个人网站 (jingege.wang) ①蛋白数据下载 可以下载泛癌蛋白数据:UCSC Xena (xena

风水研究会官网源码系统-可展示自己的领域内容-商品售卖等

一款用于展示风水行业,周易测算行业,玄学行业的系统,并支持售卖自己的商品。 整洁大气,非常漂亮,前端内容均可通过后台修改。 大致功能: 支持前端内容通过后端自定义支持开启关闭会员功能,会员等级设置支持对接官方支付支持添加商品类支持添加虚拟下载类支持自定义其他类型字段支持生成虚拟激活卡支持采集其他站点文章支持对接收益广告支持文章评论支持积分功能支持推广功能更多功能,搭建完成自行体验吧! 原文

今天又有了别的收获。青云怎么这么厉害呢- -。。感觉无论付出多么大的努力,和他差不多就行~~

1.第一个收获就是一个宏这个宏第一个参数是函数的类型,第二个是名字,第三个其实就是setRow(),getRow(),两个方法,为的就是让我们得到对象。嘿嘿,收获不小~~ 2.比如我们定义了一个宏#define WC (6) 我们调用一个方法,suShi->m_imgIndex=rand()%WC  ;表示取0-WC-1的整数值。。 3.为了更好的适配各种环境在applicatio