本文主要是介绍Dense-PSP-UNet: A neural network for fast inference liver ultrasoundsegmentation,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Dense-PSP-UNet:一种快速推理肝脏超声分割的神经网络
摘要:肝脏超声(US)或超声检查因其实时输出、低成本、易于使用、便携性和非侵入性而被广泛使用。实时肝脏超声分割对于诊断和分析肝脏疾病(如肝细胞癌),协助外科医生/放射科医生进行治疗程序至关重要。在本文中,我们提出了一种在调整后的神经网络骨干网中使用改进的金字塔场景解析(PSP)模块来实现实时分割而不影响分割精度的方法。考虑到美国数据中广泛存在的噪声及其对结果的影响,我们研究了预处理的影响以及损失函数对分割性能的影响。在对包含8名健康志愿者的2400张图像的公开美国数据集进行注释后,我们测试了我们的方法(提供了注释数据集的链接);结果表明,Dense-PSP-UNet模型的Dice系数为0.913±0.024,实时性可达37帧/秒。
1. 介绍
超声成像在多种临床环境中被广泛用于人体不同区域的成像。超声成像的基本原理是基于人体软组织(不同回声强度)和骨骼对超声波的反射。与其他医学成像方式(如x射线、磁共振成像(MRI)和计算机断层扫描(CT))相比,超声成像具有许多优势,例如成本低、患者安全、易于获得、诊断效率高、易于使用、便携性和无辐射属性等。超声成像有很多应用;一个关键的应用是它在诊断腹部疾病,特别是肝细胞癌(HCC)中的应用。特别是对于不能使用肾毒性造影剂的HCC和肾功能不全患者至关重要。与常用的生物标志物(如甲胎蛋白(AFP))[1]相比,US在检测HCC方面也具有更高的阳性预测值。除了诊断外,它还可以帮助识别肝脏中的相关平面,以协助外科医生/介入放射科医生进行治疗。
尽管超声成像有很多好处,但临床医生和外科医生在使用超声成像时仍面临着一些挑战。其中包括:(1)由于散斑噪声和阴影的普遍存在,美国图像的质量普遍较差。具体来说,是肋骨的影子肺部可能会覆盖肝脏的某些部分,这增加了分析的难度。(2)由于成像伪影的频繁出现和来自不同回声强度组织的声波反射不佳,解剖边界通常不清晰。例如,肝脏的边界经常与横膈膜重叠,使得肝脏的精确边缘模糊不清。(3)感兴趣区域(ROI)的形状和大小可能会因US探针的方向和位置而有很大差异。(4)在ROI附近存在其他具有类似回声强度的解剖结构,使其难以划定,如肾脏、脾脏等。(5)由于超声的低对比度性质,难以识别小的ROI(如肝脏病变、门静脉分支、肝动脉)。
所有这些挑战都使得实时肝US的人工分析变得困难、耗时且依赖于操作人员。克服这些障碍的一种方法是实时精确地描绘(即分割)ROI(即肝脏),使临床医生能够在美国机器显示器上的其他器官/组织中检测肝脏。具体来说,肝脏实时US分割算法可以在以下几种临床场景中提高诊断和治疗的有效性:(1)肝脏US分割可以用于肝脏疾病的分析和诊断。(2)手术和治疗过程可以进一步使用实时US分割,提高手术的准确性同时减少对健康组织的损害。(3)实时US分割还可以与其他医学成像方式(如CT或MRI)融合,增强可视化。例如,术中US可以与术前CT融合,为外科医生提供增强的可视化,使外科医生能够更精确地执行手术。近年来,人们提出了几种基于不同方法的传统分割算法[3-6],包括区域增长[7-9]、阈值分割[10]、分水岭分割[11]、活动轮廓分割[12]、聚类分割[13]等。最近,几种基于深度学习的技术在实现更高的分割精度方面得到了广泛的关注[14,15]。
基于深度学习的美国语分割方法最近取得了成功,因为它们能够在没有用户建议的情况下从输入数据中学习相关特征,提供了具有最先进性能的健壮的端到端解决方案[16,17]。
例如,Ronneberger等人提出了用于生物医学图像分割的初始U-Net架构。U-Net架构采用编码器-解码器结构和跳过连接从密集特征表示构造分割映射。普通的U-Net体系结构很难达到平均水平,因为ROI是稀疏的。因此,受U-Net启发的自定义编码器-解码器架构被提出以缓解其他领域的挑战[19,20]。例如,Akilan等人已经说明了将LSTM与3D卷积一起用于图像到图像的前景分割。Qu等人利用编码器和解码器之间的对称金字塔注意力来跟踪移动的物体。Öksüz等[23]采用了几个微调的特征提取器网络,并将它们的输出组合在一个多级解码器中,在两个不同的数据集上产生了高精度的肺分割掩模。
同样,定制的神经网络已经被开发来克服斑点噪声并学习美国图像中的小细节。例如,Mishra等人推出了一种全卷积网络(FCN),该网络具有注意机制和深度监督,可用于US图像中肝血管的端到端分割。然而,建议的架构只关注美国的肝血管检测,而没有评估模型的复杂性和推理时间。Zhou等[25]在unie++架构中的跳过连接上积累了不同语义尺度的特征。然而,该模型需要较高的GPU内存,并且需要较高的计算复杂度来预测准确的分割结果,这使得它不适合实时分割。最近,Gao等人在UNet++架构中加入了亚历斯金字塔空间模块对US图像中的肝脏肿瘤进行分割。尽管该方法获得了较好的肿瘤分割精度,但由于UNet++架构的限制,其实时性不高。总之,文献中现有的方法参数数量和模型大小都很大,这使得它们对实时US分割的效果较差。Vaze等人提出了一种具有较小参数集的Thin-UNet体系结构,其性能类似于普通的U-Net体系结构。
然而,这种体系结构的一个主要限制是整个网络的固定通道宽度,由于池化导致上下文信息的大量丢失。尽管Thin-UNet实现了实时性,但与该领域的其他模型相比,其分割性能有所欠缺。随着计算机视觉领域的发展,实时语义分割得到了迅速的发展。Zhao等[28]引入了一种级联网络(ICNet),该网络通过标签引导吸收多分辨率分支来实现实时分割。所提出的语义分割方法旨在最大限度地提高自然图像数据集[29]的性能。美国图像的分割不同于自然图像,主要是由于存在斑点噪声、对比度差、解剖边界模糊和器官/骨骼阴影。因此,实时美国图像分割重新受到了研究界的关注。
在本文中,我们提出了一种神经网络架构,即Dense-PSP-UNet,在不影响分割精度的情况下实现实时肝脏US分割。我们认识到实时分割被广泛接受的30 FPS的概念[27,30,31]。预处理和损失函数分别是影响输入图像质量和神经网络学习能力的关键步骤。然而,文献中的一些作品低估了US对比度增强和损失函数选择的重要性[2,24,32]。为了克服这个问题,我们综合分析了预处理和损失函数对Dense-PSP-UNet的影响。与美国图像相关的两个主要挑战是斑点噪声和对比度差。
已经提出了几种去噪方法来降低图像中的噪声水平[33,34]。然而,这些方法引入了伪影,并不能增强图像的对比度。我们选择对比度有限自适应直方图均衡化(CLAHE[36]),而不是众所周知的去噪技术,因为它使用滑动窗口方法(即局部自适应增强)提高对比度,同时降低图像的噪声水平[37]。增强后的图像被传递到卷积层进行自动特征提取。此外,我们从定义良好的类别(即基于区域,基于分布和基于边界)中选择具有代表性的损失函数,以突出适合肝脏US分割任务的损失函数类别。根据我们的建议,根据输入数据集[38]的性质和质量,可以为其他US分割选择更具体的损失函数。从本质上讲,我们在论文中有以下贡献:
1.我们提出了一个调整后的具有固定特征宽度的Dense-UNet[39]骨干,以重用网络参数并改善特征传播,同时显着减少参数计数并实现实时肝脏US分割(第2节和2.1节)。
2. 我们在跳跃连接上引入了一种新机制来提取固定宽度神经网络中的多尺度特征和上下文关联,从而提高了复杂(模糊和低对比度)美国图像的分割精度,同时保持实时推理(第2.2节)。
3.我们注释了一个公开可用的肝脏US视频数据集,提供了一个基准(第3.1节)。
4. 我们增强了动态表面损失[40],使所提出的网络能够同时学习地真值的类分布和面积(第2.3节)。此外,我们还进行了对比研究,强调了损失函数和CLAHE[36]预处理对网络分割精度的影响(第4.1节)。
5. 我们进行了全面的实证研究,以了解改进的PSP模块对Dense-UNet和UNet家族中其他架构的分割精度的影响。此外,我们将所提出模型的分割性能与美国[26]、生物医学[25]和语义[28]分割任务的最新模型进行了比较(第4.2节)。
据我们所知,这是文献中第一个试图在呼吸运动中实现肝脏实时US分割的工作。
手稿的其余部分组织如下:第2节介绍了我们提出的方法的概述,包括有关神经网络体系结构的细节,修改的PSP模块和损失函数。第3节解释了实验设置、数据集、预处理、神经网络的实现细节和分割性能评估指标。第4节描述了我们提出的网络的性能、发现、观察和实时肝脏分割的见解。最后,第五部分对工作进行了总结,对全文进行了总结。
图1所示。提出了用于实现高精度实时肝脏超声分割的Dense-PSP-UNet架构。
图2所示。改进的PSP模块(灵感来自[41])用于捕获多尺度特征,以减轻肝脏US图像中由于上下文关系差和对比度差而产生的错误。
2 提出的方法
图1展示了Dense-PSP-UNet网络,突出显示了架构内的不同组件和操作。该网络基于Dense-UNet [39]构建,具有单一的密集连接,并在密集块内调整了通道宽度。在传统的编码器-解码器架构中,每个降采样阶段后的特征宽度都会加倍,以弥补空间信息的丧失。然而,在每个步骤中将特征宽度加倍会导致参数呈指数增长,使网络不适合进行实时分割。
此外,Vaze等人[27]表明网络层𝑙(即|𝜃𝑙|)的参数数量与输入(𝐼)和输出(𝑂)的宽度成正比,|𝜃𝑙| ∝ 𝐼 × 𝑂。基于这些发现,我们通过将第一层的特征宽度初始化为16来调整网络的骨干结构,以最小化指数参数增长对网络整体参数数量的影响。这个调整过程将参数数量从大约4300万减少到近200万(减少了将近21倍),使其成为进行实时分割的可行选择。修改后的PSP模块被放置在跳连接上,以弥补参数大幅减少的影响并增强网络性能。此外,该网络使用动态加权损失函数进行训练,将权重从组合损失[42]转移到边界损失[40](第2.3节)。
2.1. 网络架构
U-Net是生物医学图像分割中最流行的架构之一,因为它通过利用跳连接来最小化编码器和解码器之间的空间信息损失,从而克服了先前提出的FCN的限制。此外,重复的池化操作使网络能够生成包含不同尺度特征的丰富特征表示。然而,对于实时肝脏分割来说,U-Net可能不是理想的架构,因为网络内有大量参数,导致推断时间延长。此外,为了获得可接受的泛化性能并避免过拟合,U-Net可能需要大规模数据集。
Dense-UNet [39]通过在编码器和解码器的块内放置单一的密集连接来克服这些挑战。这些密集连接改善了特征传播,允许特征重用,从而最小化信息损失并减少参数数量。我们大幅限制了Dense-UNet骨干结构第一层的特征宽度,以使其适用于实时分割。我们的初步评估(在第4节A和B中)发现,模型的一些分割错误是由于肝脏与背景之间的上下文关系不佳导致的。
(即横膈膜和其他器官)以及缺乏充分的全球信息。将改进后的PSP模块添加到跳跃连接中,作为一个有影响力的全局上下文先验和多尺度特征聚合器来纠正这一问题[41]。
2.1.1. 拟建网络的实证研究
为了比较,我们使用原始的U-Net架构作为基准模型。接下来,我们将修改后的PSP模块添加到经过调优的普通U-Net主干。所执行的调优与Dense-PSP-UNet架构类似。我们将此模型命名为Tuned-PSPUNet,如图3所示。最后,我们对Vaze等人提出的模型进行了修正,在其跳跃连接上加入了修正后的PSP模块。该模型被命名为Thin-PSP-UNet,它与tunedpsp - unet模型相似,但在整个骨干网络中具有32个核的恒定特征宽度。我们将所提出的模型的分割性能与具有两种不同主干的最先进的UNet++[25]架构进行比较。在我们的研究中,我们还包括一个实时语义分割模型(即ICNet[28]),以突出美国图像分割的挑战。此外,我们使用了迁移学习设置(VGG-19 UNet)和最近提出的用于美国分割的神经网络(ASUNET++[26]和CFPNET-M[43])来建立公平的比较。
2.2. 修改金字塔场景解析模块
PSP模块通常用于语义分割,减轻由于三种上下文关系差而导致的错误,并作为全局上下文先验。我们仔细调整PSP模块,以提取肝脏和背景之间有影响的上下文关联,从而在每个编码器阶段创建全局局部特征表示。这些丰富的特征通过跳过连接传递到相应的解码器块,为实时有效地构建肝脏分割掩码提供必要的多尺度空间信息。
PSP模块的一个关键组件是Global Average Pooling (GAP),它提供了输入特征映射的简洁向量表示。单独来说,GAP可能不适合低对比度的US图像,因为它可能导致空间相关性的显著丧失,并且可能无法帮助网络区分肝脏和背景。因此,不同子区域的额外多尺度信息对于区分上下文关系较弱的区域至关重要。通过使用不同核大小的池化操作获得多尺度特征,然后将其与GAP输出融合,生成丰富的特征表示。
我们通过改变多尺度核的数量和大小来改进PSP模块,以改善低对比度下肝脏的分割我们视频。我们考虑三种不同的核大小(即2的初始幂)来捕获显著不同的多尺度特征,以识别模糊的解剖边界。此外,我们将多尺度池化后的1 × 1卷积中的核数固定为64,确保有限的参数使用和内存使用,允许实时推理。我们避免修改输入特征映射的通道宽度,确保解码器可以访问编码器的原始特征映射。图2显示了改进后的PSP模块及其组件和连接。GAP的输出以红色突出显示,其次是红色(8 × 8),橙色(4 × 4)和蓝色(2 × 2)的最大池化。接下来,将1 × 1卷积(具有64个核)应用于池化层的输出,确保每个池化操作在全局特征中具有相同的权重。随后,对卷积结果进行双线性插值上采样,生成具有精确尺寸的特征映射作为输入。最后,将多尺度特征连接起来,产生改进的金字塔池化操作的输出。
2.3. 损失函数
损失函数在基于神经网络的超声分割中起着关键作用,因为梯度和参数更新直接依赖于损失函数的输出。一个平衡良好的损失函数确保网络学会生成分割掩模,同时重视真实分布、区域和边界[44]。我们使用众所周知的损失函数进行模型训练,并提出了一种修改后的表面损失,以确保模型能够表现最佳。我们采用以下损失函数来训练网络,还包括焦点损失[45]和Dice损失[46]:
组合损失:组合损失是Dice损失和交叉熵损失的加权平均,使网络能够学习真实分布和区域。Taghanaki等人[42]表明,与基于分布的损失函数(例如仅交叉熵损失)相比,组合损失可以更快地收敛。我们提出修改组合损失,使其成为焦点损失和Dice损失的总和。调整焦点损失内的超参数 𝛼 和 𝛾 参数使组合损失能够管理不平衡类别的分布并对错误分割的像素进行惩罚。此外,Dice损失提供了关于真实分布和预测之间的区域重叠的相关信息。修改后的组合损失函数可以描述为:
𝐶𝐿(𝑦, ̂𝑦) = 𝐹 𝐿(𝑦, ̂𝑦) + 𝐷𝐿(𝑦, ̂𝑦), (1)
其中,𝑦是真实标签,̂𝑦是预测掩模;FL和DL分别是焦点损失和Dice损失。
表面损失:表面损失克服了高度不平衡数据集中基于区域的损失函数存在显著变化的限制。Kervadec等人[40]提出使用距离度量在不同轮廓空间上计算边界损失。边界损失可以近似为网络权重的函数,使用地面实况的预计算水平集函数和表示预测掩模的二进制指示函数。在实践中,这些函数可以表示为softmax/sigmoid概率输出的总和。此外,由于这些损失函数提供的信息具有互补性,作者联合使用了广义Dice损失和边界损失。边界损失可以表示为:
𝐵𝐿(𝑦, ̂𝑦) = ∫𝛺 𝜙𝐺(𝑝)𝑀𝜃(𝑝)𝑑𝑝,(2)
其中𝜙𝐺是预计算在地面实况(G)上的水平集函数,𝑀𝜃是表示预测掩模的二进制指示函数,𝛺代表域(即个别图像像素)。
在训练过程中,初始时在Dice损失和边界损失上分别放置0.99和0.01的权重,以便网络集中学习感兴趣区域(ROI)的区域。随着训练的进行,权重从Dice损失逐渐转移到边界损失(即每个纪元增加0.01),使网络能够专注于ROI的边界。我们进一步修改表面损失,用组合损失(即Dice和焦点损失之和)替换Dice损失。我们采用与表面损失提出的相同的权重转移策略。这一调整使修改后的表面损失函数能够有效地学习类别分布和真实分布的区域。
𝑆𝐿(𝑦, ̂𝑦) = 𝛼𝐶𝐿(𝑦, ̂𝑦) + (1 - 𝛼)𝐵𝐿(𝑦, ̂𝑦),(3)
其中𝑦是真实标签,̂𝑦是预测掩模。𝛼是从0.99逐渐减少到0.01的权重;CL和BL分别是组合损失和边界损失。
3.实验装置
3.1. 数据集与预处理
我们在实验中使用的数据集来自CLUST对肝脏US跟踪的挑战[47,48]。我们使用了CLUST数据集的开放使用组件,该数据集包含8位健康志愿者的自由呼吸运动肝脏视频,其灰度编码为8位,持续时间为5分30秒。然后,我们处理视频的前2分钟,以提取每个志愿者300帧,从而得到2400个肝脏图像数据集。CLUST数据在瑞士日内瓦大学医院放射科收集,使用西门子美国机器(Antares, Siemens Medical Solutions, Mountain View, CA, USA)和CH4-1换能器。
此外,遵循质量控制方案,以减少
不同志愿者的美国品质差异。放射科医生拍摄的视频帧速率在16-25之间,换能器频率在1.82-2.22 MHZ之间,以确保可接受的视频质量。尽管采取了这些质量控制措施,数据集仍然包含广泛的斑点噪声、肋骨和肺阴影、伪影和不良的解剖边界。这些视频中的存在使得实时肝US分割具有挑战性。
提取的图像由三位经验丰富的放射科专家(分别有15年、8年和4年的经验)使用计算机视觉注释工具(CVAT)手动注释。自适应对比度增强是必不可少的美国图像,因为他们的右偏斜的强度分布。所有US图像都被调整为512 × 512维,并使用对比度有限自适应直方图均衡化(CLAHE)[36]预处理,clipLimit = 2.0, GridSize =(16,16),以提高对比度,增强肝脏边界。研究表明,CLAHE可以用于实时视频预处理[49],抑制US散斑噪声[50]。
我们使用OpenCV实现将CLAHE应用于图像生成器中的视频帧,从而将其纳入实时分割框架。此外,图像生成器应用随机数据增强,如水平翻转、水平和垂直移位(最多10%)、旋转(最多20度)和亮度移位(范围为5%至50%),以减少过拟合并克服数据集的其他问题。我们通过使用患者级别的图像分割来确保同一患者的图像不会在训练集和测试集之间共享。我们将患者6和8放入测试集,因为他们的视频包含具有挑战性的美国图像,肝脏边缘模糊,肋骨伪影和肺部阴影。图8用红色边界框突出显示了工件。最后,我们在drive1上公开提供带注释的数据集。
3.2. 实现细节
我们在Python中使用Keras2 (Tensorflow 1.15)框架来实现实时美国分割的不同神经网络架构。我们使用4个批处理大小和学习率为1 × 10−4的Adam[51]优化器对网络进行100次epoch的训练,为实证研究中的所有网络提供了公平的学习环境。然后,我们用四种不同的损失函数来训练Dense-PSP模型,以实现损失函数对分割性能的影响。其余的模型用修正的表面损失函数进行训练。此外,我们保存了导致测试集上Dice系数最大的时代的模型权重。最后,我们用测试集上表现最好的权重来衡量网络的推理时间。报告的推断时间是生成分段掩码的端到端持续时间,即
它包括从磁盘加载图像、CLAHE预处理和通过网络转发所花费的时间。
我们在HP Z8工作站上进行培训和评估程序,该工作站具有64gb的系统内存和具有2.10 GHz基本时钟(64核)的Intel®Xeon(R) Silver 4216 CPU。此外,该机器配备了Nvidia Quadro RTX 5000 GPU,具有16gb的VRAM。该机器可以在5小时内对修正表面损失函数的Dense-PSP-UNet模型进行100次训练。
为600张图像生成分割蒙版的测试阶段大约需要17秒。
3.3. 绩效评估指标
在这个小节中,我们描述了用于评估不同神经网络分割性能的基于区域、基于类别准确性和基于边界的度量标准。
Dice系数(DC):DC是一种基于区域的统计测量,用于比较真实分布和预测分割掩模之间的重叠程度。
交集联合(IoU):IoU度量了真实分布和预测掩模之间的区域重叠程度。
特异度:特异度是一种定量度量,用于了解在预测掩模中正确标记的负像素占总负像素数量的百分比。
敏感度:敏感度是在预测分割图中正确标记的正像素占总正像素数量的百分比。
豪斯多夫距离(HD):HD是一种边界评估指标,用于量化预测分割掩模的边缘与真实分布之间的不一致性。HD在两组点𝑋和𝑌上可以计算为 𝐻𝐷(𝑋, 𝑌 ) = min𝑥∈𝑋 max𝑦∈𝑌 ‖𝑥 − 𝑦‖2。
4. 结果与讨论
4.1. 损失函数的影响及预处理
我们用四种不同的损失函数训练dense - sp - unet模型,以推断肝脏US分割的最佳性能损失。
表1显示,与复合损耗和焦损相比,改进后的表面损耗可显著提高直流,降低高清。为了进行细粒度分析,图5描述了Dense-PSPUNet训练过程中训练集和测试集上DC的10次移动平均值。由于网络权值的随机更新,在训练过程中观察到的尖峰点和锯齿点被应用10移动平均来平滑。我们看到,改进后的表面损耗在不到20个epoch的测试集上实现了高DC(即大于0.8)。
在后期,通过边界损失对模型进行微调,达到2.690±1.20的低高清(95%百分位数)。其余的损失函数在分割性能上呈现近似线性增长,在训练结束时趋于平稳。此外,我们
我们在100个纪元内观察到了在训练集上Dice系数(DC)的演变呈现相似的趋势。观察到的训练集趋势更加平稳,因为DC在整个训练过程中持续改善。总的来说,结果表明修改后的表面损失比其他损失更快地收敛,并且实现了更高的分割性能。修改后的表面损失性能领先的原因在于初始时在组合损失上放置了显著的权重,后来将其转移到边界损失,从而使模型能够在早期阶段学习区域和分布,以及在后期学习边界信息。基于这些发现,我们使用修改后的表面损失函数来训练其余的模型。
我们训练Dense-PSP-UNet模型,分别应用和不应用CLAHE预处理,以了解其性能的定量影响。这种比较分析至关重要,因为超声图像包含大量的散斑噪声。有趣的是,文献中的一些深度学习方法没有使用预处理阶段来处理广泛存在的噪声[2],如下所述:
𝑓 ′ (𝑥, 𝑦) = 𝑓(𝑥, 𝑦) + 𝑓(𝑥, 𝑦) 𝛾𝐺𝑎𝑢𝑠𝑠(𝑥, 𝑦), (4)
其中𝑓是无噪声的图像,𝑓 ′ 是带有噪声的图像,𝐺𝑎𝑢𝑠𝑠是具有固定方差的高斯分布的加性噪声函数,𝛾是[0, 1]范围内的超参数,𝑥,𝑦分别表示图像中像素的水平和垂直坐标[52]。表2显示,CLAHE预处理通过提供具有更高局部和全局对比度以及更锐利解剖边界的图像,显著提高了分割性能(DC约提高11%,HD约提高70%)。此外,我们在训练集中视觉比较了经过CLAHE处理和未经CLAHE处理的六名患者的肝脏超声图像。图4突出显示,CLAHE明显提高了肝脏超声图像的视觉质量,增强了肝脏边缘的对比度。此外,后处理的图像清晰地显示了肋骨和肺部的伪影,为模型提供了有用的补充信息,以减少分割错误。基于这些观察结果,我们在应用CLAHE预处理后对所有模型进行训练。
4.2. 改进的PSP模块对分割性能的影响
为了在提出的模型之间进行比较研究,我们将普通U-Net模型的性能作为基线。U-Net模型的可接受DC和IoU分别为0.889和0.8012。然而,普通的U-Net模型由于其高参数计数和内存占用而不适合实时肝脏US分割。我们提出了Thin-PSP-UNet、TunedPSP-UNet和Dense-PSP-UNet模型,在不影响分割精度的情况下实现实时肝脏US分割。我们通过训练带/不带PSP模块的模型来衡量改进后的PSP模块对性能的影响。表3显示,将修改后的PSP模块添加到提议的模型中,在基于区域的指标上,它们的性能提高了6%,在高清上提高了2.35倍。此外,可以观察到Thin-PSPUNet和Tune-PSP-UNet模型在基于区域的指标上具有相似的性能。然而,tuning - psp - unet在类精度指标和HD上优于ThinPSP-UNet,从而表明
调谐后的psp - unet在像素和边界精度方面实现了较低的分割误差。在基于区域的指标、特异性和HD方面,Dense-PSP-UNet模型优于U-Net基线、Thin-PSP-UNet和Tuned-PSP-UNet,取得了最佳效果。
图6给出了三种建议模型和基线U-Net的IoU的10个移动平均值,以提供更深入的训练过程中训练和测试集性能变化的视图。可以观察到,与其他模型相比,Dense-PSP-UNet模型在不到20个epoch的时间内获得了较高的IoU。U-Net架构显示了IoU的第二好的增长。在训练结束时,基线U-Net、Thin-PSP-UNet和Tuned-PSP-UNet在基于区域的指标方面在测试集中实现了相当的性能。
dense - pspunet最先进的分割性能可归因于主干的选择,主干通过利用密集连接改善了特征传播。密集卷积确保了块的最终卷积层在没有额外网络参数(即参数可重用性)的情况下有效地合并了由块的前几层生成的特征映射,从而最大限度地减少了更深层的信息损失。通过比较,密集连接对精度的影响是显而易见的
表2中的U-Net骨干网(即Thin-UNet、Tuned-UNet和Dense-UNet)。原始的U-Net在编码器和解码器之间采用跳接,以改善相应块之间的信息流。
然而,相同的特征图流经UNet的主干和跳过连接,导致特征图中的解剖边界模糊。改进的PSP模块用多尺度特征替换了重复的编码器特征,并作为一个有影响力的全局上下文先验,允许在每个级别架构上构建丰富的多尺度特征表示。在编码器的初始层中,PSP模块提取低级特征(即边缘和曲线),而在更深的层中,它学习检测肝脏的形状。在上采样阶段,首先利用高阶信息生成肝脏的粗掩模,然后通过跳过连接的低阶多尺度特征对其进行细化。因此,我们在Dense-PSP-UNet的情况下观察到最大的性能提升。与Dense-PSP-UNet类似,改进后的PSP模块对其他提出的模型的性能影响是显著的。有趣的是,调整后的PSP模块显著提高了Thin-PSP-UNet模型的HD,因为它能够从编码器中有限的卷积特征映射中生成相关的上下文信息。
4.3. 实时性能和磁盘利用率
所提出的模型的基本特性之一是它们能够进行实时肝脏US分割(即> 30 FPS)[27,30,31]。我们在测试集上测量每秒预测的帧数,以比较它们的实时性能。表5显示了所提模型的性能,以FPS的降序排列。我们可以看出,Thin-PSP-UNet模型实现了最高的实时性能(43 FPS),而U-Net模型产生了最低的性能(17 FPS),因为它们在参数数量上存在明显差异。我们更倾向于使用Dense-PSP-UNet模型,因为它的实时性能可与tuning - psp - unet和Thin-PSP-UNet相媲美,为37 FPS。
此外,它在基于区域的指标、特异性和HD方面都优于它们。在临床环境中,深度学习模型通常需要部署在内存受限的环境中。我们可以从表5中得出结论,模型权重的内存占用与参数计数成正比。此外,我们发现所提出的模型具有小于45 MB的可接受内存占用,其中Thin-PSP-UNet模型由于其相对较小的参数计数而实现了最低的内存占用。一个关键的观察结果是,模型的FPS性能不会随着参数数量的减少而线性增加。
这一结论从Thin-PSPUNet模型的性能可以看出,该模型的参数比U-Net模型少了近57倍,实时性提高了2.5倍。
4.4. 文学比较
表4和表6分别展示了文献中突出的架构的分割精度和实时性能。ASUNet++和UNet++由于它们的高参数计数和内存占用而无法实现实时性能。我们观察到CFPNET-M与Thin-PSP-UNet的推理时间相匹配,但在测试模型中达到了最低的分割精度。由于经过调优的Dense-UNet主干,Dense-UNet具有比UNet++更好的推理时间。然而,该模型的分割精度与改进的PSP块不匹配。VGG19-UNet和ICNet具有与普通UNet架构相似的分割精度,同时提供实时性能。这些模型的分割精度表明,需要修改迁移学习设置和实时分割架构,以克服美国图像中的挑战。总之,我们可以推断出Dense-PSP-UNet模型在测试模型中实现了最高的分割精度,同时提供了实时推理时间。
4.5. 定性和失效分析
实时肝脏US分割,分类准确性和解剖边界的正确性是具有挑战性的,因为广泛的斑点
噪音,肋骨和肺影。图8提供了不同模型产生的分割掩模和相应的真值的定性视觉比较。此外,肝脏超声图像中的伪影被标记为红色边界框,以突出区分肝脏回声和阴影的复杂性。
可以观察到,香草U-Net和tune - psp - unet模型在肝脏区域产生令人满意的分割掩膜,其中伪像最小,解剖边界清晰。然而,这两种模型都倾向于过度预测以肺影为主的肝脏分割区域。类似地,Thin-PSP-UNet模型努力在人工区域中识别肝脏的可接受边界。此外,该模型容易遗漏肝脏的组成部分,回声强度略有不同。这些观察结果可能是由于与其他提出的架构相比,Thin-PSP-UNet模型的宽度有限造成的。最后,最右边的一列表明Dense-PSP-UNet产生的分割掩码在边界精度和面积重叠上最接近ground truth。
最先进的定性和定量性能,以及Dense-PSP-UNet的实时功能,表明它可以被认为是实时肝脏超声分割的理想选择。
我们的分割模型的一个关键应用是在疾病检测。Dense-PSP-UNet可用于生成精确的US图像肝脏蒙版,然后可用于提取肝脏区域的纹理特征。最后,提取的特征可以通过常规方法(即强度差方案[53])或多层感知器来检测肝硬化、HCC和脂肪肝[54,55]。
神经网络需要评估的另一个关键方面是预测肝脏区域的置信度(即分割掩码概率)。图7显示了测试集上DC的变化,作为确定肝脏的阈值,在0到1之间变化。可以推断,Vanilla UNet、Thin-PSP-UNet和Dense-PSP-UNet为肝脏提供了可信的概率,因此可以抵抗阈值的变化。然而,tuning - psp - unet的分割精度随着阈值的增加而增加,这表明该模型正在朝着与评估标准(即DC)不同的标准(即最小化其损失)进行优化。
因此,训练后对验证集的阈值进行调优可以进一步提高Dice分数。
还可以指出,我们的工作并非没有局限性。
首先,我们的实验是基于CLUST US数据中可免费获得的部分(即8名患者)。目前,我们已将其作为美国细分市场的基准。然而,我们正在前瞻性地组装一个包含健康和HCC患者肝脏US细胞的数据集。我们计划将该数据集作为肝脏US分割的大规模基准发布。其次,我们的实验采用了CLAHE预处理,因为它能够同时去噪和增强对比度。在未来,我们计划开发更多
鲁棒去噪和对比度增强技术,将以最小的伪影提高整体图像质量,并将其与CLAHE生成的性能进行比较。第三,我们使用广泛采用的不同损失类别(即面积、分布和边界)的代表性损失函数进行损失函数实验。未来,我们打算利用目前的研究结果进行实证研究,探索包含面积和边界信息的不同损失函数。我们还旨在修改现有的深度学习模型,对具有不同病理、囊肿和病变的肝脏进行分割,这些模型可以部署在移动设备(例如笔记本电脑)和临床设备(例如美国扫描仪)上。我们的目标是通过利用知识蒸馏来训练具有低计算复杂度、参数数量和内存占用的模型来实现这一目标。接下来,我们的目标是应用网络修剪和量化(例如[56])来减少网络内的连接和模型大小。我们相信Nvidia的TensorRT框架可以在网络修剪中发挥重要作用。
我们设想直接在US扫描仪上部署具有高分割精度的轻模型,用于实时肝脏分割。
5. 结论
在本文中,我们提出了一种新的神经网络架构,Dense-PSP-UNet,用于实时肝脏US分割。具体来说,我们建议在调优的Dense-UNet、tuned - unet和Thin-UNet架构中使用修改后的PSP模块,而不是跳过连接。网络是用一个修正的表面损失函数来训练的。结果表明,所提出的模型能够实现肝脏US的实时分割。Dense-PSP-UNet优于其他型号,包括基准U-Net。此外,我们还提供了细粒度分析,以了解损失函数和预处理对网络分割性能的影响。我们还全面评估了在提议的体系结构中调优的PSP模块的性能影响。最后,我们研究了所提出模型的实时性能、内存利用率和肝掩膜质量。
这篇关于Dense-PSP-UNet: A neural network for fast inference liver ultrasoundsegmentation的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!