本文主要是介绍Nature子刊《communications biology》——利用深度学习技术通过背部图像对脊柱侧弯情况筛查,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一.摘要
青少年特发性脊柱侧弯是青少年中最常见的脊柱疾病,全世界的患病率为0.5–5.2%。 脊柱侧弯筛查的传统方法很容易获得,但由于其较低的阳性预测值,因此需要不必要的转诊和放射线照相。 深度学习算法的应用具有减少脊柱侧弯筛查中不必要的转诊和成本的潜力。 在这里,我们开发并验证了深度学习算法,该算法可使用裸露的背部图像进行自动脊柱侧凸筛查。 该算法的准确性在检测脊柱侧弯,检测曲线≥20°的病例以及对二元分类和四分类的严重性分级方面优于人类专家。 我们的方法可以潜在地应用于常规脊柱侧弯筛查和无放射线的治疗前定期随访。
二.介绍
青春期特发性脊柱侧弯(AIS)的定义是10至18岁人群的脊柱弯曲度为10°或更大,并且病因不明。 它是青少年中最常见的脊柱疾病,全世界的患病率为0.5–5.2%。 未经治疗的脊柱侧弯可在骨骼成熟之前发展,这会影响身体外观,影响心肺功能,甚至引起瘫痪4-6。 因此,学校推荐脊柱侧弯筛查(SSS),以便在病程进展之前尽早发现可逆性脊柱弯曲。
SSS涉及不同类型的评估方法,包括外观检查,正向弯曲测试,弯度仪测量和单独的莫尔形貌,这些都可以直接且容易获得。 然而,这些方法的缺点是相当大的,并且包括它们对筛查者的主观性的敏感性,耗时的性质以及由于其低的阳性预测值(PPV)而需要不必要的射线照相。 尽管美国预防服务工作队(USPSTF)根据最新证据将SSS建议从否定(D级,不鼓励使用筛查程序)更改为中立(I级,服务优缺点的不确定性) 2018年,SSS中传统评估方法的缺陷仍未解决。
计算机视觉由于其在图像信息提取中的良好性能而被公认为是一种有前途的医学图像识别方法。 计算机视觉已经完成了许多任务,包括对眼部疾病的自动分类,识别遗传性疾病的面部表型19以及根据眼底图像预测心血管危险因素。 当人类筛选者评估外观特征以检测SSS期间的脊柱侧弯时,计算机视觉也可以识别这些特征。 在这里,我们使用裸露的背面图像,开发了深度学习算法(DLA),并验证了它们在脊柱侧弯的检测和严重度分级中的可行性和有效性。 可以通过远程医疗检查筛查大量的青少年,并且可以避免暴露在辐射下。
三.结果
算法训练和内部验证。训练和内部验证数据集的人口统计信息如表1所示。Faster-RCNN和Resnet的整个框图以及体系结构如图1所示。Faster-RCNN的平均定位性能为100%(平均插值)精度,标准偏差为0)。建立算法后,应用五重交叉验证来评估其性能。为了检测曲线≥10°的情况,算法1的平均AUC为0.946(95%CI,0.916–0.975),灵敏度为87.5%(95%CI,81.2–93.8%),特异性为83.5%( 95%CI,77.6–89.4%)和PPV为86.2%(95%CI,81.6–90.8%)。对于算法2,检测曲线≥20°的病例的AUC,敏感性和特异性分别为0.951(95%CI,0.933-0.970),85.7%(95%CI,83.4-88.1%)和89.6%(95 %CI,86.2–93.0%),PPV为89.1%(95%CI,85.8–92.5%)。算法3的平均准确度为80.0%(95%CI,77.8–82.1%),可区分四组。DLA的内部验证结果如图2和补充表1所示。
外部验证。使用外部验证数据集进一步评估了DLA的诊断性能,表1中显示了外部验证数据集的人口统计信息。专业筛选人员需要约30分钟(19-40分钟)来评估400张背部照片(每张照片4.5秒),比DLA所需的时间(每张照片1.5秒)长得多。结果显示,DLA与人类专家小组在检测脊柱侧弯,检测曲线≥20°的病例以及曲线严重程度分级方面存在显着差异。 P值分别为0.022,<0.001和<0.001。算法1和2的AUC分别为0.811(灵敏度为80.7%,特异性为58.0%)和0.929(灵敏度为84.0%,特异性为90.0%)。这两种算法的PPV分别为85.2%和89.4%。 DLA在检测脊柱侧弯(算法1,75.0%;人,72.4%)和识别曲率≥20°且需要矫正或手术治疗的病例(算法2,87%;人, 81.9%)。算法4在四组之间进行区分的准确度为55.5%,可与四位人类专家中的最高准确度(56.8%)相媲美,并且优于平均水平(46.9%)。外部验证的结果如图1和2所示。 3和4以及补充表2。
热图表明,有助于智能区分DLA的特征主要位于肩cap骨和腰椎区域(图5)。 热图显示的躯干不对称程度与患者的脊柱曲线有关。 此外,还提供了三种二进制分类(20–44°和≥45°; 25–44°和≥45°; 0–44°和≥45°)和另外四类分类(0–9°,10–24° ,如补充图1和补充表3所示,已验证(25-44°,≥45°)。此外,我们开发了一个基于云的平台(补充图2),其中嵌入了经过训练的DLA,可在 Django Web framework21,可从http://www.spinecube.cn/login/en/获得。 用户可以自由访问它。
四. 讨论
这项研究表明,可以对DLA进行训练,以检测脊柱侧弯,识别≥20°曲线的病例并使用裸露的背部图像进行准确性等级,敏感性,特异性和PPV的严重性分级,这些图像的准确性,敏感性,特异性和PPV均高于或接近于人类专家。 因此,我们的算法可以减少传统脊柱侧弯筛查的转诊率,成本和时间。此外,由于DLA方法不涉及放射线照射,因此它有可能被用作定期随访工具进行进展监测,以避免 X射线曝光过多。 据我们所知,这是首次针对脊柱侧弯的智能检测进行大而全覆盖的研究(包括健康对照和各种曲率严重度)。 使用裸露的背部图像证明了计算机视觉在脊柱侧弯的检测和分类中的效率。
和专家的比较
几个方面可能有助于我们的模型的优越性。首先,我们的DLA仅使用裸露的背部图像即可实现脊柱侧凸的筛查,并且在诊断准确性方面要比专家更好。其次,我们的模型有一个明确的标准,因此其结果的可重复性高于人类专家的水平,他们根据表面检查经验性地对脊柱侧弯进行分级。第三,我们的模型可以自动处理数据并且不需要人工,因此它的执行效率更高(DLA与人为对比,每张照片1.5 s对4.5 s)。我们还注意到,我们的DLA之一(算法3)在区分脊柱侧弯严重度方面显示出中等准确度(55.5%),这表明揭示脊柱侧弯严重度细微变化的挑战;但是,即使在这些情况下,我们的模型仍具有与顶级专家(56.8%)相当的性能。先前的研究表明,当训练案例数增加到60,000(〜17,000可参考图像)时,DLA的性能达到了平稳阶段.因此,我们相信随着训练案例数的增加,算法的性能将继续提高。
和别的方法的比较
#DLA的PPV值表现更好,可以降低转诊率和不必要的辐射
SSS程序中采用了各种方法来降低转诊率。 Karachalios等人的研究在同一队列中分析了四种单模态筛查方法,这四种方法的敏感性范围为84.4%至100%;特异性范围为78.1%至93.4%; 但PPV偏低(从4.8%到13.3%)。如Luk等报道,将两种或两种以上的筛查方法结合使用,可提高PPV。 (使用弯度计和莫尔条纹进行向前弯曲测试,PPV = 81%)和Yawn等(使用弯度计进行的向前弯曲测试,PPV = 29.3%)。当两种或多种筛查方法结合使用时,特别是在筛查大量人群时,需要设备和时间。为了检测曲线具有20°或更大角度的情况,Luk等人报道了PPV为39.8%,敏感性为91.0%和特异性为97.5%。Yawn等人报道的PPV为17.0%,敏感性为64.0%,特异性为67.2%。与本研究中测试的DLA相比,无论是单独使用还是组合使用,大多数这些筛查方法均具有较低的PPV用于检测脊柱侧弯病例(曲线≥10°)和曲线≥20°的病例。我们目前使用DLA的研究在确定脊柱侧弯和弯曲度≥20°的病例时,PPV分别为85.2%(敏感性为80.7%和58.0%)和89.4%(敏感性为84.0%和90.0%)。 ,这比以前的报告要好得多,并且与外部算法1(平均PPV的84.3%,范围77.4–87.2%)和算法2(平均PPV 90.4%的范围82.7–98.3%)的专家在外部验证。因此,这些算法可以减少转诊率和由于假阳性结果而不必要地暴露于辐射的病例数。
#放射线照相技术因为增加癌症风险,不能作为常规应用,而目前的几种机器学习的方法,对专用设备要求高且方法耗时,也不能广泛应用。相比之下,DLA有优势:
通过放射线照相术使用Cobb角的主要缺点是癌症风险增加,这阻碍了其在脊柱侧凸筛查中的常规应用。 已经设计了的几种机器学习方法,以使用由各种技术定义的躯干表面来检测脊柱畸形,包括光学数字化系统,正交图,表面形貌技术,激光扫描仪和Quantec系统。 然而,由于脊柱侧弯数据集少,缺乏健康的对照,对专用设备的需求高以及这些方法耗时的性质,这些方法仍不能广泛应用。 相比之下,我们的DLA仅需要裸露的背部照片进行诊断,而无需辐射。
反对SSS的另一个论点是对人力,设备和财务资源的需求。 筛查费用包括培训筛查员的支出,筛查员的薪水和购买筛查设备的费用39。 在不同的SSS计划中,每个学生的筛查费用从1.81美元到13.61美元。 在骨骼成熟之前对学生进行随访会增加成本。 罗切斯特的一项研究表明,包括随访在内,每名学生的费用增加到34.40美元39。 卢克等。 报告指出,在整个青春期筛查一名学生的平均成本为17.94美元,包括诊断和医疗费用后,每名学生的平均成本增至20.02美元和54.63美元。 我们的基于网络的自我筛选方法将大大降低筛选成本,因为仅需要网络维护或带有DLA的简单筛选设备即可。
背部影像不均匀的临床体征,包括肩高,肩cap骨突出和截骨移位,可以作为重要的线索,表明需要将脊柱侧凸患者转介X线摄片。 我们的热图(图5)显示,肩cap骨和腰椎区域对于DLA的预测准确性至关重要,这为根据体表特征筛查和分类脊柱侧弯提供了理论基础。 这种预测方法与人类筛查实践相似,并且能够区分两个或多个类别的脊柱侧弯严重程度。 此外,进一步研究DLA识别的表面参数可能有助于改善当前的手动筛选方法。
这项研究有几个局限性。 首先,训练集中的所有脊柱侧弯病例均经过专家验证,以确保诊断为特发性脊柱侧弯,只有接受矫正手术的患者才接受详细检查(全脊柱MRI,CT或电生理检查)。 因此,通过DLA筛选出的病例可能具有多种病因,例如先天性脊柱侧弯,马凡氏综合症或神经肌肉性脊柱侧弯。 其次,将健康人群的整个脊柱X射线(科布角<10°)替换为全脊柱超声图像,以避免辐射暴露,因为无法获得来自健康人群的大量X射线图像。 第三,需要通过增加训练数据或多维照片来提高算法的准确性,而DLA平台的应用需要在多中心和多种族试验中进一步验证。
五.方法
数据收集:训练数据集包括来自3240例患者的3240例患者的图像(包括1029例男性和2211例女性),这些图像带有标记的背部图像以及全脊柱站立的前后X射线图像或超声图像(包括约120万受筛选的在校学生, 有6500例经保守治疗的脊柱侧弯患者和2000例经手术治疗的脊柱侧弯患者)。 在这些图像中,有2495例来自脊柱侧弯的受试者,而745例来自正常对照。 所有受试者均为年龄在10至20岁之间的中国人,患有非真正的脊柱侧弯(例如由于疼痛或腿部差异引起的脊柱侧弯),其他脊椎疾病或其他一些背部异常(例如软组织肿块)的受试者 ,胸廓疾病等)排除在外。 用于外部验证的数据集包括来自400个个体的数据,包括100个正常病例和300个脊柱侧弯病例。
本研究得到新庙脊柱诊所新华医院伦理委员会和中山大学附属第一医院的批准。 DLA和骨科医生之间的测试已在ClinicalTrials.gov(标识:NCT03773458)上进行了注册。 从这三个机构筛查或治疗脊柱侧弯的患者中收集了用于算法训练和验证的背面图像。 所有背部图像都是在受试者自然站立并在臀部上方脱动的情况下获得的。 使用各种相机进行图像采集。 由于完全匿名的图像具有追溯性,因此无需知情同意。 我们的研究已通过机构审查委员会(IRB:XHEC-KJB-2018–024)的批准,并根据赫尔辛基宣言进行。
注释过程:每个数据集的摘要显示在补充表4中。每个受试者均基于通过Scolioscan系统(型号SCN801;香港Telefield Medical Imaging Ltd, )。本研究的正常病例是招募的志愿者,这些志愿者通过超声图像(VPI-SP方法)在无辐射评估中被诊断出,与Cobb的X射线胶片方法相比,其平均差异较低(d = -1.9°) 41所有数据集中的脊柱Cobb角均由两名具有10年经验的独立脊柱外科医生根据医学图像进行测量,而一位从事AIS已有25年以上经验的高级脊柱专科医生进行了测量。协商是否达成一致。同时,所有背面图像都用工具(https://github.com/tzutalin/labelImg)标记。测量Cobb角的观察者内和观察者间相关系数分别为0.974和0.917。根据曲线的严重程度将受试者分为不同的组:第1组,Cobb角<10°;第1组,Cobb角<10°。第2组,10°≤Cobb角<20°;第3组,20°≤Cobb角<45°;第4组,Cobb角≥45°。第1组代表非脊柱侧弯受试者,其他组代表脊柱侧弯患者。第2、3和4组的患者是具有不同管理策略的候选人(第2组,定期观察或物理治疗;第3组,支撑;第4组,矫正手术)。
DLAs的结构:首先使用Faster-RCNN自动定位感兴趣的区域(从脖子到臀部),101层的Resnet用于确认每组的特征。然后将经过预处理的图像输入到Resnet中,以基于上述组提取用于二元分类和多分类的高级特征.Faster-RCNN和Resnet的101层示意图如图1c和补充图所示。 3a。此外,补充图3b,c显示了残差块和批处理归一化块的体系结构。深度学习是一种神经网络,可以通过神经元之间的多层连接来模仿人脑的信息汇总能力。对DLA进行了训练以区分看不见的图像。训练算法1区分脊柱侧弯(第2、3和4组)和非脊柱侧弯(第1组)受试者;算法2用于识别需要进行支架或手术治疗的潜在受试者(第3和第4组);算法3旨在将图像分类的多类分类分为4组(0-9°; 10°-19°; 20°-44°;≥45°)。补充图4提供了这四个严重程度的示例(无衣服的背部,X射线和超声图像)。
统计和可重复性:针对每种目的对算法进行了独立评估。 k倍交叉验证(k = 5)技术用于评估经过训练的DLA正确分类背面图像的能力。 外部验证数据集用于进一步确定神经网络的性能。 在DLA和四个具有外部验证数据集的专业检测人之间比较了图像分类的性能,该外部验证数据集已在ClinicalTrials.gov(标识:NCT03773458)上进行了注册。 这四个检测人的详细信息如下所示:
…
对于5倍交叉验证和外部验证,计算了DLA的灵敏度,特异性,准确性和受体工作特征(AUC)曲线下的面积。 计算了真阳性(TP),真阴性(TN),假阳性(FP)和假阴性(FN)的病例数,并计算了相应的PPV和阴性预测值(NPV)。 可以按以下方式获取值:
其中,N和P分别为阴性样品和阳性样品的数量。 计算准确性,敏感性,特异性,NPV和PPV的阈值为0.5。 在二元分类问题中,如果样本的两个分类概率中最大的一个大于0.5,则该样本的预测标签为与该最大概率相对应的类别。 使用描述性统计数据将DLA在外部验证中的性能与专业筛选人员的性能进行比较。 我们研究中的所有统计检验均为2面检验,P值小于0.05被认为是显着的。 所有分析均使用MATLAB(R2016a版,MathWorks,http://www.mathworks.com)进行。
使用上述性能测量,在三个不同场景中使用400个样本(裸露的背面图像)独立评估了所有四个筛选器和DLA的性能。 筛选人员被告知,第一个场景中的选项包括<10°和≥10°。 同样,筛选器被告知,第二场景中的选项包括<20°和≥20°,第三场景中的选项包括<10°,10–19°,20–44°和≥45°。
贡献分析和网站建设:我们还使用类激活映射(CAM)分析了身体部位对DLA辨别能力的贡献。感兴趣的区域显示为热图上的彩色区域。此外,还有一个自筛选网站(https://www.spinecube .cn)是为了免费访问而建立的。 用户可以根据网站上的指示上传他/她的背部图像,并且输出报告包括筛查结果和推荐推荐(射线照相或在线随访)。
上面提到的所有方法都是在装有四个TITAN Xp图形处理单元的计算机上使用伯克利视觉与学习中心(BVLC)深度学习框架(Caffe)进行的。 对于Faster-RCNN,以平均精度(AP)和四重交叉验证评估了定位性能。 对于Resnet,通过评估准确性,敏感性,特异性,接收者操作特征(ROC)曲线和AUC曲线以及五重交叉验证来评估分类性能。 所有DLA均从预先训练的模型中进行了微调,具体而言,所有DLA的超参数均从使用IMAGENET数据集进行训练的现有模型中初始化。 我们使用相同的数据集训练了Alexet,VGG16,Inception-V4和Resnet-101,我们选择了Resnet-101来完成此任务。
这篇关于Nature子刊《communications biology》——利用深度学习技术通过背部图像对脊柱侧弯情况筛查的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!