SCI 2区论文:医疗保健中心训练有素的脑膜瘤分割模型的性能测试-基于四个回顾性多中心数据集的二次分析

本文主要是介绍SCI 2区论文:医疗保健中心训练有素的脑膜瘤分割模型的性能测试-基于四个回顾性多中心数据集的二次分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

基本信息

  • 标题:Performance Test of a Well-Trained Model for Meningioma Segmentation in Health Care Centers: Secondary Analysis Based on Four Retrospective Multicenter Data Sets
  • 中文标题:医疗保健中心训练有素的脑膜瘤分割模型的性能测试:基于四个回顾性多中心数据集的二次分析
  • 发表年份: 2023年12月
  • 期刊/会议: Journal of Medical Internet Research
  • 分区: SCI 2区
  • IF:7.076
  • 作者: Chaoyue Chen; Jianguo Xu(一作;通讯)
  • 单位:华西 神经外科
  • DOI:10.2196/44119
  • 开源代码:无

摘要: 背景:CNN在磁共振成像脑膜瘤分割方面取得了最先进的结果。然而,从不同机构、协议或扫描仪获得的图像可能会显示出显着的域转移(domain shift),从而导致性能下降并在实际临床场景中挑战模型部署。

客观的:本研究旨在调查训练有素的脑膜瘤分割模型在不同医疗保健中心部署时的实际性能,并验证增强其泛化能力的方法。

方法:这项研究在四个中心进行。2015 年 1 月至 2021 年 12 月期间,共有 606 名患者进行了 606 次 MRI 入组。通过神经放射科医生的共识读数确定的手动分割被用作基本事实掩模。该模型之前使用名为 Deeplab V3+ 的标准监督 CNN 进行训练,并在四个医疗保健中心分别部署和测试。为了确定减轻观察到的性能下降的适当方法,使用了两种方法:无监督域适应和监督再训练。

结果:训练后的模型在两个医疗机构的肿瘤分割方面表现出了最先进的性能,中心 A 的 Dice 比为 0.887,B 中心的 Dice 比为 0.874,C 中心的 Dice 比率为 0.631,D 中心的 Dice 比率为 0.649,因为他们使用不同的扫描协议获得 MRI。采用无监督域适应后,性能得分显着提高,中心 C 的 Dice 比率为 0.842,中心 D 的 Dice 比率为 0.855。有监督再训练后,性能进一步提升,中心 C 的 Dice 比率为 0.899,中心 D 的 Dice 比率为 0.886。

结论:在不同的医疗保健机构中部署经过训练的 CNN 模型可能会因 MRI 的域转移而出现显着的性能下降。在这种情况下,应考虑使用无监督领域适应或有监督再训练,同时考虑临床需求、模型性能和可用数据大小之间的平衡。

章节速览

    1. Introduction
    1. Methods
    • 2.1 研究人群
    • 2.2 图像预处理和标注
    • 2.3 Well-Trained 模型测试
    • 2.4 通过无监督域适应增强性能
    • 2.5 通过监督再训练增强性能
    • 2.6 道德考虑
    1. Results
    • 3.1 研究队列的特征
    • 3.2 四家公立医疗机构模型测试
    • 3.3 通过无监督域适应增强性能
    • 3.4 通过监督再培训提高性能
    1. Discussion
    • 4.1 主要发现
    • 4.2 相关工作和模型测试结果的解释
    • 4.3 模型增强的相关工作及结果解读
    • 4.4 局限性
    • 4.5 结论
    • 4.6 致谢

1. Introduction

迄今为止,所有研究脑膜瘤分割的 CAD 研究都使用与训练数据集相似的图像来测试 CNN 模型的稳健性。然而,当通过不同的扫描协议获取时,医学图像(尤其是 MRI)中的目标在图像模式上可能会有很大差异。与计算机断层扫描不同,在计算机断层扫描中,各个组织和邻近结构都有自己典型的计算机断层扫描编号(HU),而 MRI 上的组织信号强度是由多种因素决定的,包括扫描仪制造商;成像参数,例如造影剂施用、重复和回波时间;k空间填充策略;和重建算法。因此,从不同协议或扫描仪获得的图像可能会显示出显着的域转移,导致模型性能下降并对其在公共医疗保健机构中的部署提出挑战。鉴于脑膜瘤图像分割的重要性,应该研究训练有素的模型在不同的公共卫生保健中心使用时的实际表现。

为了减轻这一限制并满足临床需求,我们在四个公共医疗中心部署并测试了训练有素的脑膜瘤分割模型。此外,我们还探讨了再训练和迁移学习的功效,因为当模型表现出性能显着下降时,这些技术被广泛使用。这项研究是第一项专注于脑膜瘤分割模型部署和测试的研究,将为可能从 CAD 研究中受益最多的临床医生提供详细的统计数据

2. Methods

2.1 研究人群

所有患者均于2015年1月至2021年12月期间接受肿瘤切除术并病理诊断为脑膜瘤。

使用不同制造商的 3.0 T 和 1.5 T MR 机器以及不同的扫描协议对患者进行检。中心 A 和 B 中使用快速梯度回波序列(GRE),而中心 C 和 D 使用脂肪抑制快速自旋回波(FSE / TSE)。具体的扫描协议如下:

附件1:扫描协议

图1:数据纳入排除标准

2.2 图像预处理和标注

空间分辨率重新采样为 1 × 1 × 1(中心 A 和 B)或 1 × 1 × 5(中心 C 和 D),强度标准化为 [0,1]。使用ITK-SNAP手动标注。

2.3 Well-Trained 模型测试(model 1)

使用 Deeplab V3+ 深度学习架构在 A 中心收集的735例病例图像进行训练,并在内部测试中表现出良好的性能。该训练好的模型的性能在四家医疗机构中进行了独立测试。

2.4 通过无监督域适应增强性能(model 2)

模型2是使用无监督域适应方法生成的,该方法是我们团队专门为脑膜瘤分割设计的。该网络的主要目的是通过最小化源域和目标域的分布来调整特征。网络结构、数据参数和超参数设置的详细描述见多媒体附录4 。

将来自中心 A 的所有带有手动标签的图像设置为源,并将来自中心 C 和 D 的无标签的随机选择案例的 80% 设置为生成对抗性学习的目标域。将C中心和D中心的其余病例设置为测试组。

2.5 通过监督再训练增强性能(model 3)

模型 3 也使用 Deeplab V3+ 进行训练,就像模型 1 一样。从中心 C 和 D 中,随机选择 80% 的病例作为训练队列,20% 的病例作为测试队列

3.Results

3.1 研究队列的特征

图 2.来自四个数据库的磁共振成像示例。(图A) 中心 A(MPR-AGEs);(图B-C) 中心 B (MPR-AGE);(图D-G) 中心 C(脂肪抑制FSE/TSE);(图H) 中心 D(FSE/TSE)。MPR-AGE 中的肿瘤边界更加清晰,因为它们具有高空间分辨率(红色箭头)。此外,大脑皮层在 MPR-AGE 中相当明显,但在 FSE/TSE 中则不然,因为 FSE/TSE 是脂肪抑制的(黄色箭头)

3.2 四家公立医疗机构模型测试

在中心 A 进行了训练,并在四家机构进行了测试,测试结果如下图

该模型在中心 A 和 B 中保持了良好的性能,但在中心 C 和 D 中显着下降

3.3 通过无监督域适应增强性能

通过所提出的迁移学习网络,CNN 模型的性能显着增强.如图所示

图 5 无监督域适应(模型 2)和监督训练(模型 3)的性能增强

图 6 代表性图像说明模型 1 的性能下降和模型 2 的改进。A-P:中心C数据, Q-T:中心D数据

3.4 通过监督再培训提高性能

总体而言,监督训练的模型 3 与模型 2 相比表现出优越的性能。模型2和模型3的分割性能总结为表3

表 3 通过无监督域适应和监督再训练增强模型性能

4 讨论

在这项研究中,我们在四个独立的医疗机构中测试了训练有素的 CNN 脑膜瘤分割模型的性能。结果表明,该模型只能在使用与训练数据集类似的协议进行 MR 扫描的机构中保持其临床可行性。此外,无监督域适应方法的性能显着提高,但无法超越在大规模数据集上训练的有监督模型。与之前的研究相比,本研究应被视为对模型部署的二次分析,以深入了解在临床实践中验证人工智能方法的重要性

这项研究有几个局限性。首先,仅使用对比度增强的图像。其他类型的图像,包括 T1 加权图像、T2 加权图像和液体衰减反转恢复,也常用于临床实践。这些成像序列应该在未来的研究中进行研究。

其次,所有涉及的患者都接受了手术切除,这意味着早期肿瘤的数量是有限的。第三,考虑到回顾性研究的遗传性选择偏倚,应该要求在多个中心进行前瞻性研究来验证我们的结果。第四,我们的研究重点是模型测试和方法验证。本文使用的所有方法均已被报道过,并且在网络架构方面没有方法上的创新。

用于脑膜瘤分割的监督训练 CNN 模型只能在具有训练数据的相似域特征的 MRI 上保持其可行性。当模型表现出显着下降的性能时,可以使用无监督域适应方法,但它不能超越需要ground truth 的有监督再训练方法。

文章持续更新,可以关注微公【医学图像人工智能实战营】获取最新动态,一个关注于医学图像处理领域前沿科技的公众号。坚持以实践为主,手把手带你做项目,打比赛,写论文。凡原创文章皆提供理论讲解,实验代码,实验数据。只有实践才能成长的更快,关注我们,一起学习进步~

我是Tina, 我们下篇博客见~

白天工作晚上写文,呕心沥血

觉得写的不错的话最后,求点赞,评论,收藏。或者一键三连
在这里插入图片描述

这篇关于SCI 2区论文:医疗保健中心训练有素的脑膜瘤分割模型的性能测试-基于四个回顾性多中心数据集的二次分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/625039

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

字节面试 | 如何测试RocketMQ、RocketMQ?

字节面试:RocketMQ是怎么测试的呢? 答: 首先保证消息的消费正确、设计逆向用例,在验证消息内容为空等情况时的消费正确性; 推送大批量MQ,通过Admin控制台查看MQ消费的情况,是否出现消费假死、TPS是否正常等等问题。(上述都是临场发挥,但是RocketMQ真正的测试点,还真的需要探讨) 01 先了解RocketMQ 作为测试也是要简单了解RocketMQ。简单来说,就是一个分

跨国公司撤出在华研发中心的启示:中国IT产业的挑战与机遇

近日,IBM中国宣布撤出在华的两大研发中心,这一决定在IT行业引发了广泛的讨论和关注。跨国公司在华研发中心的撤出,不仅对众多IT从业者的职业发展带来了直接的冲击,也引发了人们对全球化背景下中国IT产业竞争力和未来发展方向的深思。面对这一突如其来的变化,我们应如何看待跨国公司的决策?中国IT人才又该如何应对?中国IT产业将何去何从?本文将围绕这些问题展开探讨。 跨国公司撤出的背景与