这篇题为《Multimodal deep learning for Alzheimer’s disease dementia assessment》的研究论文由Shangran Qiu、Matthew I. Miller、Prajakta S. Joshi等多位学者合作完成,作者团队来自美国波士顿大学医学院(医学系、物理系、解剖与神经生物学系)、杜兰大学公共卫生与热带医学院、内布拉斯加大学医学中心放射科,以及中国北京协和医院神经内科。论文发表于《Nature Communications》。
研究聚焦于当前阿尔茨海默病(AD)及其他类型痴呆在临床诊断中面临的两大挑战——一是患者数量增长带来的诊断压力与专业医生的短缺,二是不同痴呆类型在临床表现上的高度重叠导致诊断准确率有限。为应对这些问题,研究团队构建并验证了一种多模态深度学习框架,能够精准区分正常认知(NC)、轻度认知障碍(MCI)、阿尔茨海默病(AD)以及非阿尔茨海默病痴呆(nADD)四种状态。模型的性能不仅经过神经病理学数据的验证,还通过专家级临床评估得到了充分认可,显示出其在实际临床应用中的巨大潜力。
全球每年约有近一千万例新增痴呆患者,其中阿尔茨海默病(AD)是最主要的类型。面对不同病因导致的认知障碍患者,当前临床诊断的准确率仍有待提升。为此,本研究提出了一种基于深度学习的多阶段诊断框架,能够依次完成多个诊断环节,实现对正常认知(NC)、轻度认知障碍(MCI)、阿尔茨海默病(AD)以及非阿尔茨海默病型痴呆(nADD)患者的精准识别。
该框架整合了多种模型,可灵活组合并利用临床中常规获取的多模态信息,包括人口学数据、病史记录、神经心理学测试结果、神经影像学资料以及功能性评估指标等。研究结果显示,该系统的整体诊断准确率显著高于神经内科及神经影像专科医生。
此外,研究团队还借助计算机视觉领域的可解释性技术,对模型的识别机制进行了可视化分析。结果发现,模型捕捉到的疾病特异性脑部变化模式与不同类型的全脑退行性改变相吻合,并与尸检中所见的神经病理特征高度一致。
综上所述,本研究不仅验证了基于既有医学诊断标准来评估计算预测结果的科学可行性,也为痴呆类疾病的精准化诊断提供了一种创新性的智能工具。
阿尔茨海默病(AD)是全球痴呆患者的主要病因之一。随着人口老龄化的加速,AD病例数量持续攀升,给医疗体系带来巨大压力,也显著增加了老年人群的发病率和死亡率。因此,如何实现AD的早期识别与精准诊断已成为当下亟需解决的重要公共卫生问题。
尽管脑脊液生物标志物、淀粉样蛋白与tau蛋白的正电子发射断层扫描(PET)等先进影像学技术不断进步,AD的疾病修饰疗法也取得一定突破,但这些前沿手段尚主要停留在科研阶段,距离临床广泛应用仍有距离。目前,生前诊断仍主要依赖传统的临床评估、神经心理学测验及磁共振成像(MRI)等方法。
轻度认知障碍(MCI)被认为是痴呆发展的前驱阶段,其诊断往往依赖经验丰富的专业医生进行综合判断。而非阿尔茨海默病型痴呆(nADD),如血管性痴呆(VD)、路易体痴呆(LBD)及额颞叶痴呆(FTD),在临床症状上与AD高度重叠,进一步增加了神经退行性疾病的鉴别诊断难度,导致诊断敏感性与特异性存在差异。
对于正常老化、MCI、AD及其他类型痴呆的区分,需要记忆障碍专科医生的高度专业化评估。然而,在实际中,患者及家属常难以及时获得记忆诊所的服务,尤其是在发达国家的偏远地区或发展中国家,专业医生数量严重不足。未来几十年,美国等国家将可能面临神经科医生短缺问题,使得医疗需求与专业资源供给的矛盾愈加突出。
在临床实践中,对记忆障碍患者的评估需综合考虑多种病因。然而,现有的深度学习研究多聚焦于二分类任务(如区分AD与正常认知NC,或AD与特定nADD亚型),缺乏可在统一框架下实现多类别识别(NC、MCI、AD、nADD)的模型。
此外,不同研究队列在数据来源、扫描设备、临床变量采集等方面存在差异,这种数据异质性可能引发模型偏倚,从而影响算法的跨人群泛化能力。因此,验证模型在多样化人群中的稳定表现成为关键。
同时,深度学习模型常被视为“黑箱”,其诊断结果背后的生物学与医学依据往往不够透明。为了增强临床可解释性与医生信任,需要探索模型预测与已知神经退行性病变的解剖学及病理学标志物之间的对应关系。
近年来,AD相关研究主要集中于生物标志物的开发,包括脑脊液成分检测、淀粉样蛋白及tau蛋白PET影像分析等,同时,多种新型AD疾病修饰疗法也陆续进入临床试验阶段。然而,这些方法仍主要应用于科研环境,尚未成为常规临床诊断的标准工具。
机器学习在神经系统疾病诊断中的应用已逐渐展开。例如,有研究团队利用MRI影像、人口学特征(如年龄与性别)及简易精神状态检查(MMSE)等信息,构建可解释的深度学习模型区分AD与正常人群;也有研究探索了AD与特定nADD亚型的自动识别。但目前尚缺乏能够同时识别NC、MCI、AD及nADD四类认知状态的统一模型。
传统临床诊断依赖医生的主观经验,而不同医生之间的诊断一致性常存在差异。再加上专业医生资源稀缺,难以应对不断增长的临床需求,因此,开发自动化、高精度的辅助诊断系统已成为推动痴呆精准诊疗的重要方向。
本研究将痴呆的鉴别诊断过程拆解为两个连续的任务,形成一个分层式的多模态深度学习框架。第一步为COG任务,主要用于区分正常认知(NC)、轻度认知障碍(MCI)以及任意类型的痴呆(DE)。该任务进一步细分为三个二元子任务:COG
NC用于区分正常人群与MCI/DE患者,COG
MCI用于区分MCI与其他类型人群,COG_DE用于判断受试者是否存在痴呆。
在此基础上,第二步为ADD任务,该任务针对在COG任务中被判定为痴呆(DE)的受试者,进一步识别其为阿尔茨海默病(AD)或非阿尔茨海默病型痴呆(nADD)。通过连续执行这两个任务,模型能够实现对NC、MCI、AD和nADD四类人群的精准区分,从而完成全流程的智能诊断。
考虑到不同临床环境下可获取数据的差异,研究同时设计了三种可互补的模型结构:仅基于MRI数据的模型(MRI-only)、仅基于临床标量数据的模型(Non-imaging)以及融合影像与非影像数据的模型(Fusion),以实现模型在不同数据条件下的灵活应用。
MRI-only模型采用卷积神经网络(CNN)结构,以预处理后的T1加权MRI图像为输入。模型通过卷积层提取全脑结构特征,并生成两个关键指标:DEMO评分(用于评估整体认知衰退程度,对应COG任务)与ALZ评分(用于识别阿尔茨海默病特征,对应ADD任务)。在训练过程中,模型使用共享的卷积特征提取块,随后通过两个独立的全连接层分别输出DEMO评分和ALZ评分。前者为回归任务,采用均方误差损失函数;后者为二分类任务,采用二元交叉熵损失函数。
Non-imaging模型基于传统机器学习算法构建。经过多种架构比较后,研究最终选定CatBoost分类器,其AUC与AP性能指标最优。该模型输入的数据完全由结构化临床变量构成,包括人口统计学信息(如年龄、性别、种族、教育年限等)、既往病史(糖尿病、饮酒及吸烟史、抑郁症、脑外伤等)、神经心理学测试(MMSE、MOCA等)以及功能性评估(如FAQ量表各项得分)。模型同样输出DEMO评分与ALZ评分,从而独立完成COG与ADD任务。
Fusion模型通过将CNN与CatBoost进行整合,形成影像与非影像信息互补的混合架构。模型首先通过CNN计算初步的DEMO与ALZ评分,然后将这两个评分与可用的临床特征(包括人口学数据和病史等)一同输入CatBoost模型。CatBoost在综合多模态信息后重新计算评分,从而获得最终的诊断结果。该模型充分利用MRI影像的空间结构信息与临床数据的背景信息,既提升了诊断精度,也保证了模型对不同临床场景下数据缺失情况的适应性。
为评估不同特征在模型预测中的作用,研究采用Shapley Additive Explanations(SHAP)方法计算特征贡献度。在COG任务中,MMSE评分被识别为影响模型输出的首要因素,而CNN生成的DEMO评分排名第三;在ADD任务中,CNN生成的ALZ评分被认为是区分AD与nADD最显著的指标。
在影像层面,研究团队利用像素级SHAP映射将CNN的特征响应与MRI的实际空间位置对应,从而可视化认知功能下降过程中关键脑区的变化模式。例如,模型发现海马体对AD预测具有正向贡献,而在nADD预测中则呈负向贡献,这与AD的病理特征高度一致。
为了探讨不同脑区间的功能关联,研究基于SHAP值计算区域间相关性,构建脑区关联网络。网络中节点代表脑区,边的强度由Spearman或Pearson相关系数决定,仅保留显著性水平p≤0.05的连接。随后,根据相关系数绝对值选取最强的连接关系(矢状面取前100条,轴面取前200条)进行可视化展示。
在网络图中,节点大小代表加权度(即节点连接强度之和),边的颜色反映相关系数的正负方向,边的厚度则表示相关程度。结果显示,AD患者在海马体、杏仁核等边缘系统区域的脑区关联更为紧密,而nADD患者则表现出额叶与侧脑室等区域的高相关连接性,提示两种痴呆在脑网络结构上存在显著差异。
为了验证模型预测结果的生物学合理性,研究将模型生成的DEMO评分与ALZ评分与尸检获得的神经病理学指标进行比较分析。具体包括:Aβ沉积的Thal分期、神经原纤维缠结的Braak分期以及神经炎性斑块的CERAD评分。研究采用Spearman等级相关、单因素方差分析(ANOVA)及Tukey事后检验等统计方法进行验证。结果表明,模型预测的分数与上述神经病理学金标准之间存在高度一致性。这一发现不仅证明了模型在统计学上的可靠性,也表明其预测结果具有明确的生物学解释基础,为深度学习模型在神经退行性疾病诊断中的临床可解释性提供了坚实支撑。
本研究共整合了来自8个独立研究队列的数据,总计包含8916名受试者,涵盖正常认知(NC,4550人)、轻度认知障碍(MCI,2412人)、阿尔茨海默病(AD,1606人)及非阿尔茨海默病型痴呆(nADD,348人)四类人群。
其中,国家阿尔茨海默病协调中心(NACC)数据集作为主要开发队列,包含4822名受试者;阿尔茨海默病神经影像学倡议(ADNI)队列纳入1821人;额颞叶变性神经影像学倡议(NIFD)与帕金森病进展标志物倡议(PPMI)分别提供253人和198人。其余外部验证数据来自澳大利亚衰老影像、生物标志物与生活方式研究(AIBL,661人)、开放获取影像研究系列-3(OASIS,666人)、弗雷明汉心脏研究(FHS,313人),以及斯坦福大学路易体痴呆卓越中心(LBDSU,182人)。
这八个队列涵盖了来自不同地区和扫描平台的多源数据,确保模型在跨人群和跨设备环境下的泛化能力。
纳入标准要求受试者至少具备一次T1加权容积MRI扫描,且扫描时间需在官方临床诊断记录的6个月内。排除标准包括MRI切片数少于60的样本以及存在明显伪影或质量缺陷的扫描数据。对于同一受试者6个月内的多次扫描,选择MRI与诊断时间最接近的一组样本,每位受试者仅使用一次影像。
MRI预处理流程分为两阶段,首先将影像配准至MNI-152标准模板,进行轴位校正、颅骨剥离、偏置场校正及线性配准;随后基于Hammersmith成人脑图谱完成脑区分割和体积识别。所有步骤均由FMRIB软件库(FSL v6.0)实现,并辅以人工质控,以剔除低质量样本。
非影像数据方面,对来自八个队列的临床变量进行标准化与统一编码。连续变量采用均值—标准差归一化处理,分类变量使用独热编码方式表示。针对缺失数据,采用K近邻插值法进行补全。此外,为保证认知测评量表的一致性,利用UDS 2.0与3.0版本的统一转换体系,将NACC与OASIS队列的相关认知指标映射至相同量表尺度。
各受试者的诊断标签均依据各数据集提供的官方临床诊断记录确定。轻度认知障碍(MCI)标签不区分潜在病因;在痴呆患者中,若以阿尔茨海默病为主要诊断,无论是否合并其他病理类型,均标记为“AD”;而痴呆但未确诊AD的样本统一标记为“nADD”。为避免样本量过度分散,所有nADD亚型(如血管性痴呆、额颞叶痴呆、路易体痴呆等)被合并为单一标签,以提升模型的稳定性与分类准确性。
该模型以预处理后的T1加权MRI数据为唯一输入,通过卷积神经网络(CNN)独立完成COG和ADD任务,作为影像单模态诊断的性能基准。模型输出的DEMO与ALZ评分用于评估受试者的认知退化程度与AD特征分布。
为验证CatBoost模型在非影像数据上的优越性,研究同时测试了多种传统机器学习方法,包括XGBoost、随机森林(Random Forest)、决策树(Decision Tree)、多层感知器(Multilayer Perceptron)、支持向量机(SVM)以及K近邻算法(KNN)。这些模型均仅使用临床结构化变量作为输入,与CatBoost模型在相同任务下进行性能对比。
为了评估模型的临床可比性,研究邀请了17名国际执业神经科医生及7名神经放射科医生参与对照实验。神经科医生负责对NACC队列中的100例多模态样本进行综合诊断,神经放射科医生则基于50例MRI图像及人口学信息进行痴呆类型判定。专家组的诊断结果作为“人工金标准”,与模型预测结果进行对比分析,以检验算法在真实临床环境下的可替代性与准确性。
对于二分类任务(包括COG
NC、COG
MCI、COG_DE及ADD任务),采用多维度指标评估模型性能,包括受试者工作特征曲线下面积(AUC)、精确率-召回率曲线下面积(AP)、敏感性(Sensitivity)、特异性(Specificity)、F1分数(F1-score)及马修斯相关系数(MCC)。在多分类任务(即NC/MCI/AD/nADD四分类)中,主要使用准确率(Accuracy)、F1分数、敏感性、特异性及MCC来综合衡量模型的分类能力与类别平衡性。
为评估不同诊断方式之间的一致性,采用Cohen’s Kappa系数测量神经科医生组与神经放射科医生组内部的诊断一致程度。通过Spearman等级相关系数分析模型预测的DEMO评分和ALZ评分与神经病理学指标(包括Aβ沉积、神经原纤维缠结及神经炎性斑块)之间的相关性。同时,利用Pearson相关系数评估模型SHAP值与神经放射科医生脑区萎缩评分之间的对应关系,以验证模型可解释性的生物学合理性。
为检测模型在不同数据来源与扫描设备下的稳定性,研究使用t分布随机邻域嵌入(t-SNE)方法,对MRI后处理嵌入及CNN隐藏层激活进行无监督聚类分析,以评估样本是否因队列、ADRC中心或扫描厂商而形成偏倚分布。进一步计算互信息得分(MIS),定量分析诊断标签与扫描设备、中心来源间的相关性。结果显示,当MIS小于0.1时,诊断结果与外部变量间的相关性可视为可忽略,从而证明模型在不同数据源间具备良好的泛化性与公正性。
一、模型性能对比(NACC测试集与OASIS外部验证集)
在所有诊断任务中,
融合模型(CNN + CatBoost)
的整体表现最为优异,其在分类准确性与泛化性能上均超越其他模型。在COG
NC任务中,融合模型在NACC测试集的AUC达到0.945(95% CI:0.939–0.951),AP为0.946(95% CI:0.940–0.952);在OASIS外部验证集上表现更佳,AUC为0.959(95% CI:0.955–0.963),AP为0.969(95% CI:0.964–0.974)。在COG
DE任务中,NACC测试集AUC为0.971(95% CI:0.966–0.976),AP为0.917(95% CI:0.906–0.928);OASIS验证集AUC同样为0.971(95% CI:0.969–0.973),AP为0.959(95% CI:0.957–0.961),表现极为稳定。在ADD任务中,NACC测试集AUC为0.773(95% CI:0.712–0.834),AP为0.938(95% CI:0.918–0.958);OASIS验证集AUC与之相当,为0.773(95% CI:0.732–0.814),AP为0.965(95% CI:0.956–0.974)。在四分类任务(NC/MCI/AD/nADD)中,融合模型在NACC测试集上的总体准确率达到0.777(95% CI:0.763–0.791),F1分数为0.601(95% CI:0.580–0.622);在OASIS验证集上准确率为0.730(95% CI:0.675–0.786),F1分数为0.468(95% CI:0.443–0.493)。这些结果表明融合模型在不同任务及外部队列中均具备出色的稳定性与泛化能力。
MRI-only模型在多数任务中表现稳健,虽在COG
NC和COG
DE任务中的准确性略低于融合模型(如NACC测试集COG_NC任务AUC=0.844、AP=0.830),但在ADD任务中的表现接近(NACC测试集AUC=0.766、AP=0.934)。此外,在八个独立外部队列中,该模型显示出良好的泛化性能,并未因扫描设备或数据来源出现显著偏倚。
非影像模型(CatBoost)在COG任务中与融合模型表现相近(如OASIS验证集COG_NC任务AUC=0.959、AP=0.972),但在ADD任务上稍逊一筹(OASIS验证集AUC=0.689、AP=0.947)。更为重要的是,非影像模型缺乏与神经病理学指标的直接生物学对应关系,限制了其在病理层面的解释能力。
通过SHAP值分析,研究揭示了各特征在模型决策中的相对贡献。结果显示,在COG任务中,MMSE评分的平均绝对SHAP值最高,是最主要的判别特征;其次为功能性评估指标,如FAQ量表中“购物能力”和“账单支付”项目的得分,反映了日常生活能力下降与认知衰退的密切关联。CNN衍生的DEMO评分位居第三,表明影像学特征在模型判别中起到辅助但关键的作用,与传统神经心理学评估形成互补。
在ADD任务中,CNN生成的ALZ评分是最具决定性的变量,其贡献度显著高于年龄、性别及MMSE评分等传统临床特征。这一结果说明影像捕捉到的脑结构变化对AD与nADD的鉴别起着核心作用,体现了深度学习模型在脑影像特征识别方面的独特优势。
模型可解释性分析进一步揭示了不同痴呆类型的脑区模式差异。在AD相关特征中,海马体、杏仁核以及颞叶等边缘系统区域的SHAP值普遍为正(SHAP > 0),说明这些区域的结构改变与AD的预测正相关。此外,这些区域的SHAP值与神经放射科医生评估的萎缩评分呈显著正相关(Pearson r > 0.3,P < 0.05),与阿尔茨海默病典型病变分布高度一致。
相比之下,nADD的影像模式显示侧脑室扩张、额叶及顶叶皮质变薄等特征对预测具有正向贡献。这些脑区的改变更符合非边缘系统病理表现,尤其是在血管性痴呆(VD)、额颞叶痴呆(FTD)及路易体痴呆(LBD)等亚型中表现出细微但可识别的差异。
神经病理学验证进一步确认了模型预测的生物学合理性。模型输出的DEMO评分与神经病理ABC分级(Aβ沉积、神经原纤维缠结NFT及神经炎性斑块NP)呈显著正相关(Spearman r > 0.4,P < 0.01)。此外,随着病理严重程度从0级到3级递增,DEMO评分显著升高(ANOVA结果:A评分F=3.665, P=1.813e-2;B评分F=11.528, P=1.432e-6;C评分F=4.924, P=3.088e-3)。
ALZ评分同样表现出与AD病理严重程度的一致性。在Tukey事后检验中,病理3级与0级间的ALZ评分差异具有统计学显著性(P < 0.001),证明模型不仅能准确预测临床表型,还能反映脑组织病理变化的真实趋势。
在NACC测试集的100例样本中,17名神经科医生完成的四分类任务准确率均值为0.565(95% CI:0.529–0.601),而融合模型的准确率为0.558(95% CI:0.482–0.634),二者之间无显著差异(P > 0.05)。值得注意的是,神经科医生间的一致性仅处于中等水平(Cohen’s Kappa:COG
NC任务=0.600,COG
DE任务=0.601),而融合模型的交叉验证结果显示出更高的预测稳定性(标准差 < 0.02)。
在ADD任务中,7名神经放射科医生对50例痴呆样本的平均诊断准确率为0.566(95% CI:0.516–0.616)。相比之下,MRI-only模型的准确率达到0.692(95% CI:0.649–0.735),显著高于专家组(P < 0.05)。此外,神经放射科医生间的一致性较低(Cohen’s Kappa = 0.292),而模型在AUC与AP指标上的稳定性表现优异(标准差 < 0.05)。
进一步分析表明,模型计算得到的SHAP值与神经放射科医生对特定脑区萎缩程度的主观评估具有良好一致性。右侧海马体的相关系数为0.42(P = 1.3e-3),左侧颞叶为0.38(P = 3.0e-3)。该结果表明,模型所捕捉的脑结构变化不仅与影像特征匹配,也与专家的临床判断高度一致,从而增强了模型在临床实际应用中的可解释性与可信度。
本研究构建并验证了一种多模态深度学习诊断框架,能够在整合影像与非影像临床数据的基础上,实现对正常认知(NC)、轻度认知障碍(MCI)、阿尔茨海默病(AD)以及非阿尔茨海默病型痴呆(nADD)的精准识别。研究结果显示,
融合模型(CNN + CatBoost)
在所有诊断任务中表现最为优越,尤其在四分类任务中,其总体准确率与执业神经科医生相当;在ADD任务中,模型诊断准确性甚至超过了神经放射科医生。同时,该模型在多中心、多设备、多人群数据上的泛化性能稳定,具备较强的临床适应性与可迁移性。
该框架不仅在诊断性能上表现突出,还具备良好的模型可解释性。通过SHAP值分析,模型能够识别关键的判别特征,如MMSE、FAQ评分及MRI衍生的影像学指标;结合脑区网络分析,模型揭示了阿尔茨海默病与非阿尔茨海默病痴呆在脑区受累模式上的差异。值得强调的是,模型输出结果与神经病理学金标准高度一致,且与神经放射科医生对脑区萎缩的人工评估呈显著正相关,进一步证明了模型预测的生物学合理性与临床可信度。
从应用层面来看,该框架在不同医疗资源条件下均具备可操作性。非影像模型可作为初级医疗机构的快速筛查工具,用于高危人群的早期识别;而MRI-only模型与融合模型则更适合记忆障碍专科门诊或高端医疗场景,支持精准分型与个体化诊疗决策。
总体而言,本研究提出的多模态深度学习框架为痴呆类疾病的智能化诊断提供了一种全新的解决方案。该系统能够在从初级保健到三级专科诊疗的全链条中发挥作用,不仅有助于缓解专业医生短缺的压力,还可显著提升痴呆诊断的效率与准确性,为认知障碍疾病的早期干预与临床管理开辟新的方向。