本文主要是介绍基于深度学习的正常衰老和痴呆症中的脑龄预测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
大脑衰老过程中会出现一系列功能和结构的改变。阿尔茨海默病(AD),作为一种典型的神经退行性疾病,与大脑加速衰老有关联。在本研究中,我们利用大量的氟脱氧葡萄糖正电子发射断层扫描(FDG-PET)和结构磁共振成像(MRI)数据,构建了一个基于深度学习的大脑年龄预测模型。我们进一步探讨了大脑年龄与多种退行性症状(如轻度认知障碍、AD、额颞叶痴呆和Lewy体痴呆)之间的关系。为了更好地解释模型的工作机制,我们进行了遮挡分析,结果显示该模型能够学习到与年龄和成像方式(即FDG-PET或MRI)相关的大脑衰老模式。我们还发现,大脑年龄与认知障碍程度和AD生物标志物之间存在高度相关性。此外,这一年龄差在不同临床类别中具有纵向预测能力,包括那些从认知正常状态转变为临床症状的个体。值得注意的是,不同诊断组中影响大脑年龄差的大脑区域是不同的,而在AD连续体中,这些区域与正常衰老过程中的区域表现出相似性。本文发表在Nature Aging杂志。(可添加微信号19962074063获取原文及补充材料,另思影提供免费文献下载服务,如需要也可添加此微信号入群)。
主要内容
衰老的生物学机制是复杂的,并且尚未被完全理解。一般而言,衰老的特点是逐渐累积的有害生物学变化,伴随着功能逐渐丧失,尽管这是一种简化的说法。更好地理解大脑衰老的生物学机制具有广泛的相关性,因为大脑衰老及其对认知功能的影响直接关系到生活质量。
大脑衰老涉及结构和功能的变化。结构磁共振成像(MRI)显示,随着年龄的增加,灰质体积最明显地在额叶、岛叶皮层和海马区减少,而脑室系统和颅内脑脊液的体积增加,白质微结构也发生变化。此外,使用正电子发射断层扫描(PET)的功能成像技术表明,大脑衰老与全局氧利用、脑血流、葡萄糖摄取和有氧糖酵解的局部变化有关。与年龄相关的葡萄糖利用减少最明显地出现在额叶、后扣带、后顶叶以及内侧颞区——这是痴呆症中的关键病理区域。相比之下,初级运动、枕叶皮质、小脑和皮质下结构,包括丘脑、壳核和苍白球,不太容易受到衰老过程中代谢变化的影响
基于这些发现,使用大脑成像进行年龄预测已成为神经科学研究的一个活跃领域。估算出的年龄被称为“大脑年龄”,这可能与个体的生理年龄有所不同。近年来,由于数据可用性的增加和深度学习技术的进步,通过卷积神经网络(CNN)模型在认知正常的人群中进行更准确的大脑年龄估算已成为可能。此外,“大脑年龄差”——即大脑年龄与生理年龄之间的差异——被视为一种有前景的、个性化的大脑健康生物标志物。在个体层面上,大脑年龄差的测量也可能具有预后价值,通过捕捉衰老和疾病相互作用中的个体差异来潜在地预测健康结果。多项研究报告称,基于神经成像的个体脑龄高估(表现为大的大脑年龄差)与死亡率、神经退行性疾病和其他几种临床病症有关。
我们的目标是使用大量来自26-98岁参与者(共2,349名独特个体,进行了4,127次扫描;其中认知未受损的对照组有1,805人,认知受损的有732人)的大脑结构MRI和氟脱氧葡萄糖(FDG)PET扫描,开发一个基于深度学习的大脑年龄预测模型。我们的大脑年龄预测方法是基于30-97岁的认知正常参与者来训练健康衰老轨迹的。我们还研究了CNN模型的年龄和成像方式特异性显著图,使用遮挡敏感性分析来解释哪些大脑区域对每个年龄子组和成像类型的年龄预测贡献最大。我们调查了包括轻度认知障碍(MCI)、AD、额颞叶痴呆(FTD)和Lewy体痴呆(DLB)在内的患者组中的大脑年龄差估算。大脑年龄差与神经心理测试、其他成像AD生物标志物(如淀粉样PET和tau PET)以及痴呆症进展的纵向预测性之间的关联也得到了评估。我们通过体素逐一线性回归分析评估了哪些区域性变化对每个疾病组更高的大脑年龄差生成有贡献,并将其与正常大脑衰老轨迹进行了比较。
方法
数据集
参与者数量众多(表1),年龄范围从26岁到98岁(n = 2,349,扫描次数 = 4,127),他们都接受了来自Mayo Clinic Study of Aging(MCSA)或Alzheimer’s Disease Research Center(ADRC)研究(表1)的MRI和FDG PET扫描。所有参与者或其代表都在Mayo Clinic和Olmsted Medical Center的伦理审查委员会的批准下提供了书面知情同意。如前所述,Mayo Clinic Rochester ADRC是一个纵向队列研究,该研究从Mayo Clinic在Rochester的临床实践中招募参与者。MCSA是一项针对Olmsted County居民进行的认知衰老的人群基础研究。经过由研究协调员、神经心理学家和行为神经学家组成的共识小组的裁定,参与者被认定为临床正常或认知受损。在这两项研究中,定义临床未受损、MCI和痴呆的方法都符合该领域的标准。对于这次分析,参与者根据共识标准被分配到6个临床亚组:包括认知未受损(n = 1,805,扫描次数 = 2,879)、轻度认知障碍(MCI,n = 480,扫描次数 = 666)、阿尔茨海默病(AD,n = 215,扫描次数 = 372)、额颞叶痴呆(FTD,n = 45,扫描次数 = 69)和Lewy体痴呆(DLB,n = 86,扫描次数 = 141)。
表1 Mayo数据集的人口统计信息
CNN模型训练
对于CNN模型的训练,仅使用了认知未受损个体的数据。部分参与者还接受了使用PiB进行的淀粉样PET扫描(扫描次数 = 2,508)和使用flortaucipir进行的tau PET扫描(扫描次数 = 608)。部分参与者进行了CDR-SB、STMS和MMSE的评估(扫描次数分别为1,522、1,491和1,587)。所有认知测试均由经验丰富的心理测量师进行,并在获得临床神经心理学家资格认证的监督下完成。为了检查训练模型是否存在数据集特异性偏见,我们还使用了ADNI数据集(n = 1,150,扫描次数 = 1,622;补充表1)。ADNI数据集包括认知受损的参与者(n = 330,扫描次数 = 454)以及有MCI(n = 647,扫描次数 = 885)和痴呆(n = 255,扫描次数 = 283)的参与者。ADNI数据集中的部分参与者也接受了使用AV45进行的淀粉样PET扫描(扫描次数 = 1,464)和使用flortaucipir进行的tau PET扫描(扫描次数 = 283)。
图像处理
使用3T扫描仪获取了T1加权MRI扫描。使用18F-氟脱氧葡萄糖进行了FDG PET成像,使用PiB进行了淀粉样PET成像,使用18F-flortaucipir(AV-1451)进行了tau PET成像。FDG PET图像在注射后30-40分钟、PiB PET在40-60分钟、tau PET在80-100分钟内获取。进行了计算断层扫描以进行衰减校正。PET图像使用我们的内部全自动图像处理流程进行了分析。简而言之,PET扫描与每个参与者在每个时间点的相应MRI进行了共配准,然后使用SPM12统一分割的变形映射到Mayo Clinic Adult Lifespan Template(MCALT)空间。相应的MRI经过强度不均匀性校正并使用MCALT组织先验和分割参数进行了分割。FDG PET的标准摄取值比率(SUVR)是通过将脑桥中摄取的中位数除以SUVR图像来计算的,这些SUVR图像被用作输入数据到CNN模型中。淀粉样蛋白和tau PET的标准摄取值比率(SUVR)是通过将小脑十字形灰质中的中位摄取量进行除法计算得出的。一个元兴趣区域(meta-ROI)的PiB PET SUVR是由前额叶、眶前额叶、顶叶(parietal)、颞叶、前扣带回和后扣带/楔前区区域中的中位SUVR的平均值得出的。一个元ROI的tau PET SUVR是由杏仁核、内嗅皮质、梭状回、海马旁回以及下颞叶和中颞回(middle temporal gyri)中的中位摄取量的平均值形成的。
3D-DenseNet架构和训练
我们在认知未受损队列的FDG PET或MRI扫描上训练了一个修改过的3D-DenseNet模型(图1a)。对于训练,我们仅使用了第一个时间点的扫描(扫描次数 = 1,805),以避免训练和验证/测试数据集之间的数据泄漏。如何在训练、验证和测试数据集之间的参与者重叠影响模型结果的实验测试是单独进行的(请参见数据集分割实验部分)。图1a显示了3D-DenseNet架构的示意图。输入数据的具体维度在我们的应用中是121×145×121。要预测的输出是表示生理年龄(年)的单一标量。该架构由一个常规的5×5×5卷积层组成,其后是4个密集块和它们之间的3个过渡块。这4个密集块分别由3、6、12和8个密集层组成(在每个块上方标注)。每个密集层都有一个1×1×1瓶颈卷积层,然后是一个3×3×3卷积层。在每个块内,密集层以前馈方式密集地相互连接。增长率(k)是48。从最后一个全局平均池化层的扁平化输出然后与1,457个单元完全连接,并连接到输出层。
该神经网络使用Keras实现,TensorFlow作为后端。使用五折验证进行了交叉验证实验(60%训练数据集,20%验证数据集和20%测试数据集)。MAE用作损失函数。使用Adam优化器对模型进行了优化,参数为:β1 = 0.9和β2 = 0.99。用于权重初始化的是He初始化策略(编者注:He初始化(He Initialization)是一种权重初始化方法,用于解决深度神经网络训练中的梯度消失和梯度爆炸问题。这种方法由Kaiming He等人在2015年提出,并主要用于ReLU(Rectified Linear Unit)激活函数及其变体(如Leaky ReLU、Parametric ReLU等))。训练周期是150。为训练集选择的学习率是1×10^-4,并且每10个周期减少2倍。如果验证错误在七个周期内没有改善,学习率将被更新。在超参数调优阶段,基于验证集的性能对超参数进行了优化,初始的网格参数搜索是(批量大小:(2,4)和学习率:(1×10^-1,1×10^-2,1×10^-3,1×10^-4,1×10^-5))。损失函数、优化器和学习率调度器以及早停回调在整个调优阶段都是固定的。总参数数量为70,183,073,其中70,122,657是可训练参数。我们使用了四个的小批量大小。在Tesla P100 GPU上进行了训练和测试。
与DenseNet的比较
为了与DenseNet进行比较,我们还使用了3D-ResNet101和SFCN架构。我们仅与其他深度学习模型进行了性能比较,尽管非深度学习模型可以提供更大的可解释性,因为已经证明深度学习模型的性能远远优于非深度学习方法,而且对非深度学习模型来说,特征提取可能是有问题的。对于ResNet训练,我们实现了一个初始学习率为0.001的ADAM优化器。对于SFCN,我们实现了一个初始学习率为0.01和L2权重衰减参数为0.001的随机梯度下降优化器。
遮挡灵敏度分析
为了便于解释,我们使用遮挡灵敏度分析生成了年龄预测模型中使用的相关特征的大脑图。该分析是在测试数据集内进行的。为了计算年龄特异性的显著性图,数据根据它们的生理年龄被分为7个子年龄组,从30到100,每10年一个间隔。在每个组内,原始图像被11×11×11体素区域用零值遮挡,沿着一个11×11×11的网格(图1b)。由于前后12个体素沿着前后轴不包括大脑区域,因此这些被排除在遮挡之外以减少计算负担。然后,通过我们预先训练的3D-DenseNet模型对遮挡的图像进行了年龄推断,性能以MAE遮挡进行评估。通过计算MAE遮挡和通过原始图像获得的MAE原始之间的差异获得了delta MAE;通过对每个区域(n = 1,331)进行遮挡迭代获得了一个delta MAE矩阵(11×11×11)。然后,通过立方插值和对遮挡中排除区域的零填充,将delta MAE矩阵重构为原始图像大小(121×145×121);计算了5折的平均值。通过将整个图像除以最大值进行了标准化;因此,最终显著性图的值范围从0到1。
数据集分割实验
为了测量每位参与者多个时间点的包含如何影响大脑年龄预测,我们测试了五种不同的数据分割选项。主要结果来自最严格的数据分割选项:选项1,每位参与者只使用一个时间点。还测试了四个其他选项;选项2(每位参与者多个时间点,允许训练、验证和测试数据集之间有重叠);选项3(每位参与者多个时间点,允许训练和验证数据集之间有重叠);选项4(训练和验证数据集多个时间点,测试数据集一个时间点;不允许训练、验证和测试数据集之间的参与者有重叠);以及选项5(验证和测试数据集使用一个时间点;不允许训练、验证和测试数据集之间的参与者有重叠)。对于这五个选项,与选项1相比,从五折交叉验证中得到的验证和测试MAE进行了比较(补充表4)。
统计分析
大脑年龄预测的准确性通过平均绝对误差(MAE)和预测年龄与生理年龄之间的Spearman相关性进行评估。定义x为生理年龄,y为预测年龄,大脑年龄差(Brain Age Gap)由 y − x 计算得出。已知大脑年龄差异与生理年龄有关,这导致对年轻人的高估和对老年人的低估,这是由于回归稀释效应。因此,我们使用了Smith等人描述的线性偏差校正方法,对大脑年龄差异进行年龄偏差校正。我们对测试数据集拟合了一个线性回归 y = ax + b。然后,校正后的大脑年龄差异由(y − b) / a − x 计算得出。从认知未受损组中得出的a和b系数以相同的方式应用于其他诊断组进行偏差校正。
通过单因素方差分析(ANOVA)和Holm-Šídák事后测试,将疾病组的校正后大脑年龄差与认知未受损参与者进行了比较。使用Pearson相关系数评估FDG和基于MRI的大脑年龄差异之间的关联。然后,使用Fisher的r到z转换后的z检验,将这些相关系数在认知未受损和疾病组之间进行了比较。
对于纵向分析,参与者在连续扫描的时间点上观察到的疾病进展组被定义为从认知未受损到认知未受损、从认知未受损到MCI/AD、从MCI到MCI、从MCI到AD、从MCI到FTD、从FTD到FTD、从MCI到DLB和从DLB到DLB,其中第二类别代表最近的诊断组分配。然后,使用单因素方差分析和Holm-Šídák事后测试,将基线(即早期时间点)大脑年龄差异在相同的基线组内进行了比较。
通过每个患者组大脑年龄差异作为回归量进行的体素逐一回归分析,研究了哪些大脑区域的改变与每个患者组的大脑年龄差生成有关。每个个体的生理年龄被指定为一个干扰协方差。对于认知未受损的参与者,使用生理年龄作为回归量进行了相同的分析。使用假发现率(FDR)进行了多重比较的统计显著性校正,临界大小至少为100个相邻体素。使用标准的recon-all命令(FreeSurfer v 7.1.1)重建了大脑皮层表面的三维模型。表面使用SUMA软件进行了可视化。所有分析都是用MATLAB v.9.4(MathWorks)和Prism v. 9.1.2(GraphPad Software)执行的。
、
结果
在认知功能正常的参与者中的大脑年龄估计
我们基于FDG PET或MRI的大脑年龄预测模型是在Mayo数据集中的认知功能正常的参与者上使用3D-DenseNet架构进行训练的。3D-DenseNet通过使用密集连接来保留前一层的特征,从而具有良好的特征使用效率和性能。为了避免可能的过拟合问题,我们只使用了每位参与者的第一个时间点的扫描进行训练(即,n = 1,805;扫描次数 n = 1,805)。然后,使用五折交叉验证来评估模型的准确性,以平均绝对误差(MAE;单位,年)表示。
FDG-和MRI-based模型能够准确地预测健康成年人的生理年龄(对于FDG,R
2=0.8546 和β=0.8503;对于MRI,R2=0.8046 和β=0.7718)。在测试集上对五折的整体性能进行测量后,FDG和MRI的MAE分别为3.4333±0.0545和4.2055±0.2241。
如图2b,e所示,大脑年龄差(预测的大脑年龄-生理年龄)与相应的生理年龄之间存在负相关(对于FDG,Spearman的r=−0.3613;对于MRI,r=−0.4642)。这一现象是众所周知的,与回归稀释、模型正则化和非高斯年龄分布有关。我们使用了线性偏差校正方法来校正年龄偏见。校正后,我们观察到校正后的大脑年龄差与生理年龄之间的相关性减小,MAE也减小了。校正后的整体性能在五折上的MAE分别为3.0755±0.14013.0755±0.1401 和3.4868±0.16313.4868±0.1631,用于FDG和MRI。
图 1 | 用于年龄预测和遮挡分析布局的3D-DenseNet架构。
a, 用于年龄预测的3D-DenseNet的详细架构。b, 遮挡分析框架的示意图。
图 2 | 在认知正常参与者上的大脑年龄预测。
a–c, 代表性折叠测试集的基于FDG的大脑年龄预测结果。a, 回归图显示了生理年龄与预测大脑年龄之间的关系。b, 未经校正的大脑年龄差。c, 校正后的大脑年龄差。
d–f, 代表性折叠测试集的基于MRI的大脑年龄预测结果。d, 回归图显示了生理年龄与预测大脑年龄之间的关系。e, 未经校正的大脑年龄差。f, 校正后的大脑年龄差。
每个图中的黑色实线和虚线分别代表回归线和其95%的置信区间。
为了评估训练模型是否存在数据集特异性偏见,我们将使用Mayo数据集训练的模型应用于一个独立的队列,即阿尔茨海默病神经影像学倡议(ADNI)数据集(认知正常,n = 330;扫描次数 n = 454)。我们得到了与Mayo结果没有统计学差异的相当结果(FDG的MAE = 3.1398 ± 0.2013,MRI的MAE = 3.5101 ± 0.2270;FDG和MRI的P值分别为0.58和0.84;Holm-Šídák检验)。这表明模型可以推广到独立的数据集(扩展数据图1a-f和补充表2)。此外,我们还通过将Mayo和ADNI数据集混合在一起来训练了一个模型(扩展数据图1g-l)。在这次试验中,年龄预测的整体性能明显优于仅使用Mayo数据集(FDG的MAE = 2.7383 ± 0.1091,MRI的MAE = 3.1029 ± 0.2107;FDG和MRI的P值分别为0.01和0.005,Holm-Šídák检验;扩展数据图1m和补充表2)。模型的性能还与两种不同的架构进行了比较:3D-ResNet和简单的全卷积网络(SFCN)。DenseNet和ResNet的性能相当(P > 0.05,两样本Student's t检验),而SFCN在两种模态下的性能都比DenseNet差(P < 0.001,两样本Student's t检验;补充表3)。
考虑到我们数据集的纵向性质,许多参与者在不同时间点进行了连续扫描(认知正常队列的平均扫描间隔 = 2.65 ± 1.14年)。尽管每个时间点的图像可以被认为是不同和独立的数据,因为扫描间隔足够长,足以允许在获取的图像中出现一些变化,但重复的扫描仍然彼此高度相似。因此,我们旨在探究这些连续图像是否足够不同,以便作为机器学习应用的独立数据点,或者这是否会导致模型过拟合和偏见,从而损害模型的泛化性。为了调查参与者内部变异性是否影响模型的性能,我们比较了几种数据分割策略的预测准确性(如方法中详细描述)。正如预期的那样,我们观察到,训练和验证或测试数据集之间相同参与者的重叠(将参与者的至少一个扫描分配给训练,同时将同一参与者的不同扫描分配给验证或测试数据集)显著影响年龄估计的准确性(与选项1的两样本Student's t检验;P < 0.001用于验证;选项2中的测试MAE和选项3中的验证MAE;补充表4)。这一模式对于FDG和MRI输入都是相似的。同时,对于每个参与者包括多个扫描,对模型性能的影响几乎没有差异(两样本Student's t检验;选项4和选项5;补充表4)。
为了提高模型的可解释性,通过遮挡敏感性分析估算了显著性地图。具体来说,输入空间的一部分被一个遮挡(11×11×11)覆盖,将这些体素设置为零;然后通过计算MAE(平均绝对误差)的变化(MAE遮挡 - MAE原始)间接地估算了这些区域在决策中的重要性。显著性模式因年龄和模态而异。对于FDG(氟脱氧葡萄糖),整个后部区域,特别是后扣带皮质(PCC),在年轻组(30-40和40-50岁)中对年龄预测的贡献更大。对于50-60岁、60-70岁和70-80岁年龄段,额下区(包括眶额区、直回和额中区)的贡献高于其他区域。 额下皮层、基底神经节、颞下皮层和脑桥周围峰值的整体贡献对于老年群体(80-90 岁和 90-100 岁)的年龄预测也很重要。 对于 MRI 来说,岛叶皮质对年轻群体(30-40 岁和 40-50 岁)的年龄预测贡献最大。从50岁到60岁,脑室边界的贡献更高。在年长的组(80-90和90-100岁)中,小脑延髓池显示出最高的显著性。每个年龄范围内找到的显著性峰值的坐标在补充表5中进行了总结。
图3 | 显著性地图在冠状切片上的可视化。
每个年龄组的显著性地图是通过遮挡敏感性分析计算得出的。更高的显著性代表一个区域在大脑年龄估计中的重要性。
左图:基于FDG(氟脱氧葡萄糖)模型的显著性地图。右图:基于MRI模型的显著性地图。
在患者群体中的大脑年龄差估计
使用训练有素的标准队列模型,估计了4个临床诊断组(MCI,即轻度认知障碍,样本数为480,扫描次数为666;AD,即阿尔茨海默病,样本数为215,扫描次数为372;FTD,即额颞痴呆,样本数为45,扫描次数为69;DLB,即路易体痴呆,样本数为86,扫描次数为141)的大脑年龄差。使用与认知正常个体偏见校正相同的系数来校正大脑年龄(见图2)。正如预期的那样,所有患者组的大脑年龄差都显著高于认知正常组,无论是哪种成像方式(P < 0.001,Holm-Šídák检验;见图4a,c)。有趣的是,预测的大脑年龄差与生理年龄呈负相关,即年轻的患者有更高的差(见图4b,d)。FTD的平均大脑年龄差最高,这是一个相对早发的过程,其次是AD、DLB和MCI。这些发现揭示了不同类型的认知障碍和神经退行性疾病在大脑年龄预测方面的差异,这可能有助于更准确地诊断和理解这些疾病的进展。
图4 | 临床诊断组中校正后的大脑年龄差作为生理年龄函数的回归图。
a, 每个诊断组校正后的大脑年龄差的小提琴图。使用单因素方差分析(ANOVA)和Holm-Šídák多重比较测试,将疾病组的校正大脑年龄差与认知正常个体进行比较。确切的P值:认知正常与MCI,P = 1.5 × 10^−9;认知正常与AD,P < 1 × 10^−15;认知正常与FTD,P < 1 × 10^−15;认知正常与DLB,P < 1 × 10^−15;***P < 0.001。
b, 分别针对MCI、AD、FTD和DLB的基于FDG的大脑年龄差估计。每个图中的黑色实线和虚线分别代表回归线和其95%置信区间。
c, 每个临床诊断组校正后的大脑年龄差的小提琴图。使用单因素方差分析(ANOVA)和Holm-Šídák多重比较测试,将疾病组的校正大脑年龄差与认知正常个体进行比较。确切的P值:认知正常与MCI,P = 2.4 × 10^−11;认知正常与AD,P < 1 × 10^−15;认知正常与FTD,P < 1 × 10^−15;认知正常与DLB,P < 1 × 10^−15;***P < 0.001。
d, 分别针对MCI、AD、FTD和DLB的基于MRI的大脑年龄差估计。每个图中的黑色实线和虚线分别代表回归线和其95%置信区间。
e, 基于FDG和MRI的大脑年龄差之间的关系。每个图中的黑色实线和虚线分别代表回归线和其95%置信区间。r表示皮尔逊相关系数。
如图4e所示,每个组中基于FDG和MRI的大脑年龄差之间显示出显著的相关性(P < 0.001,皮尔逊相关系数)。有趣的是,与认知正常组相比,疾病组倾向于具有更高的相关性和斜率(皮尔逊相关系数:0.5819、0.7163、0.7974、0.8491和0.6925;拟合线的斜率:0.6624、0.7080、0.8102、0.8132和0.8126,分别对应认知正常、MCI、AD、FTD和DLB)。MCI、AD和FTD组与认知正常组的比较显著(P < 0.001,经过Fisher的r到z转换后的z检验;扩展数据图3)。
然后,将相同的模型应用于ADNI队列中的疾病组(MCI,n = 647,扫描次数,n = 885;AD,n = 255,扫描次数,n = 283),并观察到类似的结果(扩展数据图4)。在两种模式下,MCI和AD组的大脑年龄差显著高于认知正常组(P < 0.001,Holm-Šídák检验;扩展数据图4a,c)。AD的基于FDG和MRI的大脑年龄差之间的相关系数显著高于认知正常组(P < 0.001,经过Fisher的r到z转换后的z检验;扩展数据图4e)。
与人口统计学和AD生物标志物的大脑年龄差关联
大脑年龄差与高度的认知障碍有关。鉴于此,我们测试了疾病组经过修正的大脑年龄差与三种神经心理测试评分之间的关联,包括临床痴呆评分总和(CDR-SB)、简短的心理状态测试(STMS)和迷你心理状态检查(MMSE)。如预期的那样,两种大脑年龄差都显示出显著的相关性(P < 0.001,FDG的皮尔逊相关系数,r = -0.3870, -0.3762, 0.3886;MRI的r = -0.3612, -0.3523, 0.3705,分别对应MMSE、STMS和CDR-SB;扩展数据图5和补充表6)。
接着,我们寻求检查大脑年龄差与神经影像学AD生物标志物之间的关联(图5)。AD的特点是淀粉样β蛋白和神经纤维缠结的病理性聚集,这可以通过匹兹堡化合物B(PiB)PET和tau PET分别捕获。对于PiB PET,只有MCI组在FDG和MRI中达到了统计学意义;然而,相关系数是边缘的,分布中没有明显的关联模式(皮尔逊相关;图5a,c)。然而,tau PET在MCI和AD组中与大脑年龄差显示出显著的相关性,但在FTD或DLB组中没有(皮尔逊相关;图5b,d)。特别是,AD组显示出更高的相关性(r = 0.5110用于FDG和r = 0.6648用于MRI)。在ADNI数据集中也观察到了相同的模式(扩展数据图6)。只有tau PET显示与大脑年龄差有显著的相关性,而淀粉样PET则没有显示出关联。
图5 | 大脑年龄差与meta-ROI PiB和Tau PET SUVR的关联。
a,散点图显示了基于FDG的大脑年龄差与MCI、AD、FTD和DLB各组的meta-ROI PiB PET SUVR之间的关系。
b,基于FDG的大脑年龄差与meta-ROI tau PET SUVR的散点图。
c,基于MRI的大脑年龄差与meta-ROI PiB PET SUVR的散点图。
d,基于MRI的大脑年龄差与meta-ROI Tau PET SUVR的散点图。图中的黑色实线和虚线分别代表回归线及其95%的置信区间。
r表示皮尔逊相关系数;P表示相关性检验P值。
我们还尝试评估性别与年龄差估计的关联(扩展数据图7)。在认知功能正常的个体中,女性在两种模态(FDG和MRI)下的大脑年龄差都显著低于男性(两样本Student's t检验,P < 0.001和P = 0.001,分别用于FDG和MRI)。这与之前的研究结果一致,即女性大脑的年龄普遍较男性大脑年龄更年轻。在AD组中,女性的大脑年龄差被估计为显著高于男性(两样本Student's t检验,P = 0.009和P = 0.005,分别用于FDG和MRI)。在DLB组中,女性也显示出显著更高的大脑年龄差,但这一模式仅在基于MRI的模型中观察到(两样本Student's t检验,P = 0.0045)。
纵向预测性质的大脑年龄差
我们使用连续扫描来研究大脑年龄差的纵向相关性。为了这一分析,基于连续时间点定义了疾病进展组,包括从认知功能正常到认知功能正常、从认知功能正常到MCI/AD、从MCI到MCI、从MCI到AD、从MCI到FTD、从FTD到FTD、从MCI到DLB和从DLB到DLB,其中第二类别代表最近的诊断组分配。在认知功能正常到AD类别中的三名患者被包括在认知功能正常到MCI/AD中,由于参与者数量不足,认知功能正常到FTD(n = 1)和认知功能正常到DLB(n = 0)组被排除在外。对于认知功能正常的队列,当每位参与者被分配到测试数据集时,收集了大脑年龄差。
首先,我们探讨了早期时间点(即基线)的大脑年龄差是否与后期时间点的诊断进展有关。为了这一比较,只包括了基线时认知功能正常(即从认知功能正常到认知功能正常,从认知功能正常到MCI/AD)和MCI组(从MCI到MCI,从MCI到AD,从MCI到FTD和从MCI到DLB),并在相同的基线组内比较了基线大脑年龄差(图6a,c)。从认知功能正常到MCI/AD组在两种模态下都显示出与从认知功能正常到认知功能正常组有显著差异的基线大脑年龄差(P = 0.001和P < 0.001,分别用于FDG和MRI;Holm-Šídák检验)。在MRI模型中,MCI到MCI和MCI到AD组之间的比较也达到了显著性(P = 0.005;Holm-Šídák检验),而FDG模型的差异接近但未达到显著性(P = 0.07;Holm-Šídák检验)。这一观察表明,基线大脑年龄差可以预测认知障碍的进展。在FDG模型中,只有MCI到MCI和MCI到FTD之间的比较具有统计学显著性(P < 0.001;Holm-Šídák检验),而在任何成像模态下,MCI到MCI和MCI到DLB组之间的基线大脑年龄差都没有差异。
由于疾病进展的概率随着连续扫描之间的时间间隔的增加而增加,因此还比较了各组之间的扫描间隔。我们发现,从认知功能正常到认知功能正常组的间隔显著高于从认知功能正常到MCI/AD组(扩展数据图8a;Holm-Šídák检验)。为了排除由于扫描间隔差异导致的任何偏见,我们在排除了扫描间隔超过2年的参与者后,重复了基线大脑年龄差的比较(扩展数据图8b),并发现基线大脑年龄差仍然可以预测后期时间点在两种模态下的疾病进展(Holm-Šídák事后检验;扩展数据图8c,d)。
图 6 | 大脑年龄差的纵向特性,在连续扫描中观察到的参与者的疾病进展组是由第二个类别定义的,该类别代表了最近的诊断组分配。
a,FDG模型的基线大脑年龄差比较。使用单因素方差分析和Holm-Šídák事后检验在相同的基线组内进行了统计检验。确切的P值:从认知功能正常到认知功能正常与从认知功能正常到MCI/AD,P = 1.9 × 10^-4;从MCI到MCI与从MCI到AD,P = 0.07;从MCI到MCI与从MCI到FTD,P = 2.6 × 10^-5;从MCI到MCI与从MCI到DLB,P = 0.78。
b,对于FDG模型,每个组的年度Δ大脑年龄差与从认知功能正常到认知功能正常进行了比较,使用单因素方差分析和Holm-Šídák事后检验。确切的P值:从认知功能正常到MCI/AD,P = 0.54;从MCI到MCI,P = 0.57;从MCI到AD,P = 0.04;从AD到AD,P < 1.0 × 10^-15;从MCI到FTD,P = 0.56;从FTD到FTD,P = 3.5 × 10^-4;从MCI到DLB,P = 0.57;从DLB到DLB,P = 0.57。
c,MRI模型的基线大脑年龄差比较。使用单因素方差分析和Holm-Šídák事后检验在相同的基线组内进行了统计检验。确切的P值:从认知功能正常到认知功能正常与从认知功能正常到MCI/AD,P = 8.2 × 10^-5;从MCI到MCI与从MCI到AD,P = 0.005;从MCI到MCI与从MCI到FTD,P = 0.11;从MCI到MCI与从MCI到DLB,P = 0.87。
d,对于MRI模型,每个组的年度Δ大脑年龄差与从认知功能正常到认知功能正常进行了比较,使用单因素方差分析和Holm-Šídák事后检验。确切的P值:从认知功能正常到MCI/AD,P = 0.99;从MCI到MCI,P = 0.99;从MCI到AD,P = 0.006;从AD到AD,P < 3.5 × 10^-7;从MCI到FTD,P = 0.87;从FTD到FTD,P = 0.87;从MCI到DLB,P = 0.99;从DLB到DLB,P = 0.87。n = 1,054, 104, 169, 49, 157, 6, 22, 11, 55 分别代表从认知功能正常到认知功能正常、从认知功能正常到MCI/AD、从MCI到MCI、从MCI到AD、从AD到AD、从MCI到FTD、从FTD到FTD、从MCI到DLB和从DLB到DLB组。
箱线图表示最小和最大值(须)、第一和第三四分位数(箱边界)和中位数(内部线)。*P < 0.05,**P < 0.01,***P < 0.001,****P < 0.0001。
在外部的ADNI队列中也观察到了类似的结果(扩展数据图9a,c)。从认知功能正常到认知功能正常与从认知功能正常到MCI/AD组之间的比较在两种模型中都具有统计学意义(P = 0.04和P < 0.001,分别用于FDG和MRI;两样本Student's t检验)。只有MRI模型在MCI到MCI和MCI到AD之间的比较中显示出统计学上的显著差异(P = 0.03;两样本Student's t检验)。
接下来,我们观察了每个疾病组的大脑年龄如何随时间变化。对于这项分析,连续扫描之间大脑年龄差的年变化率(每年Δ大脑年龄差)在各组之间进行了比较。因此,我们发现在两种成像方式中,从MCI到AD和从AD到AD的组比从认知功能正常到认知功能正常的组显示出显著更高的Δ大脑年龄差(Holm-Šídák检验;图6b,d)。只有FDG模型在从FTD到FTD的组中显示出统计学上的显著性(P < 0.001,Holm-Šídák检验;图6b)。在ADNI队列中,只有在FDG模型中从AD到AD的组与从认知功能正常到认知功能正常的组相比显示出显著更高的Δ大脑年龄差(P < 0.001,Holm-Šídák检验;扩展数据图9b)。
在痴呆和正常衰老中的大脑年龄差
为了研究每个患者组中哪些大脑区域的改变与更高的大脑年龄差有关,进行了以大脑年龄差为回归量的体素逐一线性回归分析。在这次分析中,由于生理年龄与大脑年龄差呈负相关,因此将其指定为一个干扰协变量。基于FDG和MRI的大脑年龄差根据疾病组显示出不同的模式(使用线性回归,经过FDR(假发现率)校正,q < 0.01;图7a,b)。
在FDG中,MCI和AD组在整个大脑中显示出负相关,这意味着全局皮层低代谢与更高的大脑年龄差有关,而白质区域显示出正相关(图7a和扩展数据图10)。在AD组中,前额、颞叶和顶叶区域显示出更强烈的负相关。相反,FTD患者组的前额和颞叶区域观察到与大脑年龄差有关的显著低代谢。有趣的是,FTD组的枕叶、前中央皮质和丘脑显示出正相关。DLB组在后部和颞叶区域显示出显著的负相关。前中央皮质和丘脑与大脑年龄差呈正相关。
然而,MRI显示出与FDG明显不同的显著区域模式(图7b和扩展数据图10)。在MCI和AD中,脑沟和白质显示出正相关;围绕脑回和脑室的区域与大脑年龄差呈负相关。相反,FTD和DLB患者组仅在脑室周围观察到局部负相关。
图 7 | 大脑年龄差的体素逐一线性回归分析。
a,b, 分别针对FDG和MRI,展示了体素逐一全脑线性回归检查与大脑年龄差相关的变化(经FDR校正,q < 0.01)的临床诊断组特异性(MCI、AD、FTD和DLB)结果。生理年龄被指定为一个干扰协变量。
c,d, 对于认知未受损的个体,使用生理年龄作为回归量进行了体素逐一线性回归分析,分别展示了FDG(c)和MRI(d)的年龄相关变化。
e, FDG模型的临床诊断组(纵轴)和认知未受损组(横轴)之间的beta值的体素逐一相关。
f, 来自e的皮尔逊相关系数的比较。误差条表示皮尔逊相关系数的95%置信区间(CIs)。皮尔逊的r(95% CI)= 0.9391(0.9386–0.9396)、0.827(0.8257–0.8283)、0.654(0.6517–0.6563)和0.7095(0.7114–0.7075),分别适用于MCI、AD、FTD和DLB。所有确切的P值都是P < 1.0 × 10^−15。***P < 0.001,经过Fisher的r到z转换后的双侧z检验。
g, MRI模型的临床诊断组(纵轴)和认知未受损组(横轴)之间的beta值的体素逐一相关。
h, 来自g的皮尔逊相关系数的比较。误差条表示皮尔逊相关系数的95%置信区间(CIs)。皮尔逊的r(95% CI)= 0.8418(0.8407–0.8430)、0.7064(0.7043–0.7084)、0.5399(0.5370–0.5427)和0.5205(0.5176–0.5235),分别适用于MCI、AD、FTD和DLB。所有确切的P值都是P < 1.0 × 10^−15。***P < 0.001,经过Fisher的r到z转换后的双侧z检验。
为了与正常衰老中观察到的大脑年龄差相关的变化进行比较,也使用生理年龄作为回归量对认知未受损组进行了线性回归分析(图 7c,d)。与遮挡分析相比,体素逐一回归可以突出显示与正常衰老有统计学显著关联的大脑区域。在认知未受损组中,年龄的回归分析与该组图像上的显著性分析有所不同,这是一个合理的结果,因为模型可能专注于特定特征(即使是统计学上不显著的特征),而不是像回归那样将所有输入信息作为一个整体来处理。与MCI和AD的结果类似,在FDG上观察到全局皮层负相关和白质中的正相关(图 7c)。在MRI上,观察到了脑沟和白质中的正相关,以及围绕脑回和脑室的区域中的负相关(图 7d)。
然后,为了评估大脑年龄差相关的变化与正常衰老之间的相似性,进行了beta值之间的体素逐一相关分析(图 7e–h)。结果显示,每个患者组的beta图与FDG和MRI的正常衰老强烈相关(P < 0.001,皮尔逊相关)。在两种成像方式中,MCI的相似性最强,其次是AD组(P < 0.001,经过Fisher的r到z转换后的z检验;图 7f,h)。与MCI和AD组相比,FTD和DLB组的相关系数相对较低(P < 0.001,经过Fisher的r到z转换后的z检验;图 7f,h)。
讨论
我们开发了基于结构或代谢大脑图像的3D-DenseNet模型,该模型能准确估算正常衰老过程中个体的大脑年龄。遮挡分析揭示了对模型性能至关重要的解剖区域,并展示了每种输入成像方式都有其独特的与年龄相关的大脑区域显著性模式。在具有神经系统疾病的队列中,大脑年龄差比在认知未受损的个体中要大,并且与认知评分和AD神经影像生物标志物显著相关。此外,基线时的大脑年龄差预测了后期认知障碍的进展。从体素逐一线性回归分析中确定与大脑年龄差最相关的解剖区域,对于每个诊断组都是不同的。AD连续体、MCI和AD的结果与正常衰老相比,与FTD或DLB的相关性更为接近。
大多数以前的大脑年龄研究都是基于结构MRI的。据我们所知,只有1项先前的研究使用了FDG PET,但该研究是基于非深度学习方法,并且使用了一个相当小的队列(n = 205)。只有少数基于结构MRI的研究报告了CNN模型的解释图。深度学习方法中有助于精确年龄预测的结构和功能变化尚需完全阐明。大脑年龄差的纵向预测性质尚未在临床前组中进行探索。此外,关于哪些大脑改变和特定区域变化与患者中较高的大脑年龄差相关,以及预期的生物老化和病理过程之间的关系,目前还知之甚少。
我们的模型基于结构和代谢神经影像数据准确地估算了个体的生理年龄。有趣的是,基于FDG的大脑年龄预测略优于基于MRI的模型(图2和补充表2),这表明代谢数据可能更适用于追踪正常大脑衰老的轨迹。一个需要考虑的是,PET上可检测到的代谢变化可能早于AD中观察到的结构变化,尽管这在认知未受损的个体中尚未得到描述。此外,我们基于FDG的模型部分地结合了结构信息,因为FDG扫描到模板空间的空间标准化是使用个体的MR图像进行的,这意味着使用FDG的大脑年龄预测模型具有功能和结构信息的双重优势。FDG图像也受到部分容积效应引起的结构变化的影响。另一方面,使用MRI相对于FDG的模型性能下降可能是大脑中与年龄相关的结构变化的区域异质性的结果。
遮挡分析揭示了年龄估算的重要区域,并根据输入成像方式显示了不同的年龄特异性显著性模式(图3和扩展数据图2)。在基于FDG的模型中,随着年龄的增加,观察到后部到前部结构的转变。后部结构,特别是PCC(后扣带皮层),对年轻年龄组的贡献最大,而前部结构,包括额颞叶,在老年组中更为关键。已经报道了PCC中葡萄糖代谢随年龄下降,以及PCC中的淀粉样沉积和葡萄糖代谢减少与早期AD有关。在老年人中,额叶区域的FDG活动更为显著;正常衰老中额叶代谢的下降在多个研究中得到了一致的报告。与基于FDG的分析相比,基于MRI的模型的显著性图显示了不同的关键区域,对于年轻年龄组,最关键的区域被确定为岛叶,这是一个随着正常衰老而发生灰质体积减少的区域。此外,还确定了30-50岁的年轻人的MRI中高显著性的区域为内侧颞叶,这些区域以前描述过与衰老以及AD有关的体积减少。岛叶和内侧颞叶的大脑实质保存可能是基于MRI的年龄预测的可靠特征。对于老年组,小脑延髓池和脑室的外围边界是关键的。这可能反映了模型依赖于随年龄增长而发生的脑脊液(CSF)空间的典型扩大。有趣的是,显著性图没有显示皮层区域对年龄估算的突出贡献,我们原本预计会因MRI上看到的典型的年龄依赖性皮层体积减少而找到这一点。我们推测,与年龄相关的皮层变化可能过于异质,以至于不能作为年龄预测模型中最可靠的显著特征。白质信号特性的变化也是衰老的一个众所周知的现象。我们的遮挡分析没有发现白质的贡献,这可能是MRI上进行的白质强度标准化的结果。
有趣的是,估算的大脑年龄差与MRI和FDG的生理年龄呈负相关,并且在老年组接近零(图4),这表明模型不能区分相似的老年正常和病变大脑。另一种解释是,由于患有更多疾病的大脑(即,更高的大脑年龄差)的个体不太可能活到更老的年龄,因此生理年龄和大脑年龄差之间的负相关性可以归因于流失。MCI和AD的大脑年龄差与tau PET有显著关联,但与淀粉样PET没有关联(图5和扩展数据图6)。众所周知,tau与AD的严重程度比淀粉样水平更密切相关。在早期AD和AD痴呆中,tau放射性示踪剂摄取和皮层厚度与认知任务性能的下降程度更大,而不是淀粉样β放射性示踪剂摄取。此外,大脑年龄差估算能够在纵向设计中预测疾病进展,即使在临床前阶段(图6)。有一项先前的研究报告称,在从基线的MCI诊断到随访的AD诊断中发生变化的进行性MCI中,发现了更高的大脑年龄差,与稳定的MCI组相比。Franke和Gaser的研究显示,大脑衰老在进行性MCI和AD组中加速得更多,而不是在认知未受损的个体和稳定的MCI中。
在认知未受损和神经退行性疾病组中,观察到FDG-和MRI-based大脑年龄差之间存在强相关性。这表明,正常衰老的代谢变化以及疾病进展与结构变化是同时发生的,这些因素影响了年龄预测模型的性能。FDG-和MRI-based大脑年龄差之间的相关性在疾病组(r = 0.6548-0.7824)中略强于认知未受损的队列(r = 0.5873)。神经退行性病理学伴随低代谢率的结构变化或萎缩,比正常衰老更大程度地出现,这是疾病组中相关性增加的一个合理解释。另一方面,大脑低代谢率,这在不同类别的神经退行性病理学中以特定模式发生,可能与正常衰老中特定神经退行性疾病队列的结构或体积变化更密切地相关。
在FTD中,额叶和前颞叶区域与大脑年龄差呈负相关,这些区域在FTD中具有特征性的低代谢率;在枕叶区域观察到正相关,这是FTD中通常没有低代谢率的区域。Castelnovo等人报道,一些FTD病例表现出枕叶高代谢率。在DLB中,颞叶、顶叶和枕叶区域与大脑年龄差呈负相关,这些是DLB中经常观察到的低代谢率区域。枕叶和初级视觉皮层在DLB组中的相关性值得注意,因为枕叶/初级视觉皮层的低代谢率是DLB与其他神经退行性过程(如AD)的特征。代谢特征区分DLB和AD的能力是独特的,并且是FDG PET临床应用的重要组成部分,因为异常的淀粉样PET(这是AD的定义标志)通常出现在DLB中,这是由于随着年龄增长而出现的共存病理现象。脑室和与CSF空间相邻的大脑实质边界与MCI和AD在MRI中呈相关。对于FTD和DLB,脑室边界与大脑年龄差呈相关,尽管在CSF和皮层区域没有看到相关性。与CSF相邻的脑室周围边界可能反映了白质体积损失和脑回/脑沟界面的区域,这两者也都伴随着正常衰老。在FTD和DLB组中相对于MCI和AD组发现的相关性降低可能是由于FTD和DLB队列的样本量较小。
大脑年龄估算有望成为有用的神经科学和预后性临床工具,尽管“大脑年龄”作为一个概念范式引发了一些批评和争论,其中哪些偏差是由特定病理过程而不是正常生物老化的加速所导致的。通过使用功能和结构神经成像,我们证明了MCI和AD中与大脑年龄差相关的变化与正常衰老相比,与FTD和DLB的相似性更强(图7)。使用我们的模型在MCI和AD中进行大脑年龄差估算可能反映出一种加速衰老的过程,而与FTD和DLB相比,大脑年龄差可能代表特定区域的病理。然而,病理实体和正常衰老变化不能轻易地分离,因为衰老是由累积的生物损伤引起的,这表明生物老化和疾病是内在相关的。与这一概念框架相关,我们显示MCI与正常衰老的相似性大于AD,这表明轻度疾病状态更接近生物老化。随着AD连续体中疾病的加重,变化模式更具病理特异性。从这个意义上说,大脑年龄估算可能提供更多的见解,有助于我们更广泛地了解衰老过程与退行性病理之间的关系。如果痴呆反映了大脑结构和代谢的基础变化连续体,所有个体都不可避免地以不同的速度易受其影响,基于神经成像的大脑年龄预测可能有助于更好地了解不同的大脑衰老表型。或者,如果痴呆类型代表与正常衰老有明显不同机制的实体,大脑年龄的标志仍然可能在识别更有可能发展这些病症的个体方面具有用处。
本研究有一些值得注意的局限性。在遮挡分析中,观察到左半球优势对大脑年龄预测的贡献,这在事后分析中无法解释。基于遮挡的方法更多地关注最主要的区域,而不是其他解释方法。在这项研究中,我们只测试了神经退行性病理,没有评估可能具有不同大脑衰老模式的任何慢性全身性医学疾病和血管性疾病。先前的研究通过汇总公共数据集,在更大的MRI样本(大约10,000个)上训练了CNN,并能够大大提高性能。我们没有包括来自额外公共数据集的队列,其中没有可用的FDG,因为我们的目标是比较基于MRI和FDG的模型,以测试这两种模式在认知正常和痴呆组中的年龄预测任务中的不同模式。尽管我们获得了成功的预测准确性,增加训练样本的大小可能进一步提高模型的性能。我们的模型表现出合理的性能;然而,排除那些没有大脑实质的体素可以减少参数并进一步提高训练效率。
总之,我们展示了一个3D-DenseNet模型为认知正常的个体生成准确的年龄预测,使用FDG PET输入比MRI表现稍微更稳健。使用反映代谢功能的PET成像进行大脑年龄预测,可能从MRI上评估的结构信息中提供对大脑健康的不同评估。与认知正常的个体相比,在多种类型的痴呆中,来自MRI或FDG数据的大脑年龄差增加;因此,它可能证明是一种有用的复合生物标志物,用于识别病理风险增加或作为疾病严重程度的标志。
这篇关于基于深度学习的正常衰老和痴呆症中的脑龄预测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!