首页

位置导航: 首页 > 学术前沿 > 正文

The Lancet Digital Health(一区,IF=24.1)中国CT血管造影图像颅内动脉瘤检测的深度学习模型

来源:

访问:

2025-10-13 18:31

本文题为《A deep-learning model for intracranial aneurysm detection on CT angiography images in China: a stepwise, multicentre, early-stage clinical validation study》,由胡斌等人共同完成,作者单位包括南京大学医学院、徐州医科大学等机构,发表于《The Lancet Digital Health》。该研究在中国开展多中心,开发CTA颅内动脉瘤检测AI模型,经四阶段验证:AI单独诊断灵敏度超医生,辅助医生后AUC、灵敏度提升,阅片提速,临床采纳率92.6%,前瞻性应用错误率0.5%,可降漏诊、减负担。

01 摘要

人工智能(AI)模型在真实世界中的应用案例较少,临床医生解读CTA结果存在诸多挑战且耗时费力。该研究开发并验证基于CTA的颅内动脉瘤检测AI模型:以中国多中心16546CTA图像训练模型,分4阶段纳入120名医生评估。结果显示,AI模型诊断灵敏度(0.943)显著高于医生(0.658),能提升医生诊断AUC值(患者层面0.878 vs 0.795、病灶层面0.865 vs 0.765)、缩短阅片时间,医生对AI采纳率达92.6%。前瞻性验证中,AI误差率仅0.51%,阴性预测值0.998,具备强临床应用潜力。

02 研究背景

1.疾病现状与危害

颅内动脉瘤是常见脑血管病,全球患病率3.2%,中国达7.0%,显著高于全球水平。其破裂是蛛网膜下腔出血的主要原因,此类出血病死率高达50%,早期精准诊断对改善患者临床管理与预后至关重要。

2.现有诊断手段的局限

CT血管造影(CTA)因快速、无创,成为一线临床医生检测颅内动脉瘤的首选模态,在中低收入国家应用需求持续增长。但临床解读存在明显不足:一是动脉瘤因体积小(<5mm小动脉瘤漏诊率达40%)、颅内血管结构复杂,易漏诊或误诊;二是医生经验差异大,导致不同阅片者、不同研究间诊断结果一致性低;三是阅片耗时,随着CTA检查量增加,医生工作负荷加重,进一步增加诊断误差风险。

3.AI技术应用的现有缺口

尽管深度学习在医学影像诊断中潜力显著,且已有15项研究探索AI检测颅内动脉瘤,但存在明显局限:一是研究设计多为回顾性、单中心、病例对照,样本量小且分布不均,难以反映真实临床病例多样性;二是仅5项研究报告AI辅助诊断结果,参与医生不足8人,且未解决验证数据集的基础偏差与谱系偏差;三是无研究填补模型开发-临床应用鸿沟,既未说明AI如何提升医生诊断水平,也缺乏真实临床场景的性能验证,导致技术与临床需求脱节。同时,医疗AI落地需严格验证标准,早期临床评估对检验AI系统性能、影响及安全性至关重要,因此需分阶段推进AI模型的临床实施与评估。

03 模型设计

该文中颅内动脉瘤CTA检测AI模型,以级联双网络架构为核心,结合多中心数据训练与临床适配设计,实现精度、效率与落地性的统一,具体可概括为三方面:

1. 核心架构:全局-局部级联双网络

采用两步检测逻辑:一是全局上下文网络,通过3D卷积提取完整CTA图像特征,结合注意力机制聚焦血管区域,快速筛选动脉瘤候选区域,单例分析耗时仅22.2秒,保障效率;二是局部细粒度网络,放大候选区域细节(如瘤体形态、瘤颈连接),区分真阳性动脉瘤与假阳性干扰(如动脉漏斗部),输出位置、大小分层及置信度,重点提升<5mm小动脉瘤检出率(内部验证3-<5mm灵敏度0.954)。

2. 训练与优化:多中心数据支撑+针对性设计

数据基础:基于中国8家医院16546CTA图像(含14517名患者)训练,2104例有DSA金标准验证,按15:2拆分为训练/内部验证集,纳入有无蛛网膜下腔出血患者及多品牌CT设备数据,确保稳健性(性能不受出血状态影响);

优化策略:采用分类损失+回归损失联合优化,对<5mm小动脉瘤加权,缓解样本不均;评估兼顾患者级(灵敏度、AUC)与病灶级(加权ROC)指标,适配临床需求。

3. 临床适配:兼容流程+安全控制

模型可自动对接医院PACS系统,无需特殊预处理;通过图像质量筛选(前瞻性验证误差率0.51%)与高阴性预测值0.998)双重控制,仅18.2%病例需医生二次复核,既保障诊断安全,又降低医生工作量,适配真实临床 workflow

04 实验设置

一、整体实验框架

实验为模型开发-分层验证-临床落地的递进设计(参考图1),涉及中国27家医院(8家供训练数据、7家供外部验证数据、15家参与医生研究),以数字减影血管造影(DSA)为动脉瘤诊断金标准,确保结果可信度。

二、关键实验要素

1. 数据集设置

训练与内部验证集:回顾性收集8家医院16546例头颈部CTA图像(含14517名患者),按15:2拆分为训练集(14613例,12817名患者)与内部验证集(1933例,1700名患者),2104例(14.5%)有DSA验证;排除烟雾病、动静脉畸形等特定疾病患者数据。

外部验证集:

数据集1(阶段1):4家医院900DSA验证CTA病例,用于AI与医生性能对比;

数据集2(阶段2-3):3家医院298DSA验证CTA病例,用于多读者研究与随机对照;

前瞻性验证集(阶段4):5家医院4周内1562例真实临床CTA病例,排除<18岁或既往动脉瘤患者,未匿名化且需资深医生二次审核。


  1培训、内部验证、外部验证和前瞻性数据集的特征

2. 参与者设置

招募120名认证临床医生(来自1015家医院),临床经验2-32年(中位8年),按医院为单位分配至不同阶段,每人仅参与1项研究,且不解读本机构病例(阶段1-3):

医生分组:4个亚组(住院放射科医师、主治放射科医师、高级放射科医师、介入神经外科医生),每家医院各2名;

前瞻性阶段(阶段4):仅8名参与过前3阶段的放射科医师,解读本机构常规CTA病例。

3. 四阶段实验流程

阶段1AI vs 医生对比):24名医生(18放射科+6神经外科)每人随机解读300例数据集1病例,对比AI与医生的患者级/病灶级诊断性能。

阶段2(多读者多病例研究):48名医生采用交叉设计(含4周洗脱期),分两轮解读数据集2病例(一轮用AI、一轮不用),CTA图像需匿名化、随机化,记录阅片时间与诊断结果,访谈分析阅片效率影响因素。

阶段3(随机开放标签研究):48名医生按学科+经验分层,1:1随机分至AI辅助组(默认无AI,需主动点击获取结果)与对照组(无AI),用数据集2验证AI接受度(采纳率)与性能差异。

阶段4(前瞻性临床验证):AI模型部署至5家医院PACS系统,8名放射科医师先独立解读CTA(初始诊断),再结合AI结果复核(最终诊断),记录AI误差率(图像质量差/识别失败)与医生诊断提升效果。

三、评估与统计设置


1. 核心评估指标

主要指标:患者级受试者工作特征曲线下面积(AUC)、病灶级加权替代自由响应ROC曲线下面积(wAFROC);

次要指标:灵敏度、特异性、阳性预测值(PPV)、阴性预测值(NPV)、每例假阳性数、阅片时间、AI采纳率(阶段3)。

2. 统计方法

诊断阈值:基于外部数据集最大尤登指数设为置信度≥4

分析工具:用MRMCaovpROC计算AUCDorfman-Berbaum-Metz法分析多读者性能,Clopper-Pearson法计算95%CI

显著性标准:双侧p<0.05为有统计学意义,样本量确保各阶段统计效能>0.90

05 结果与分析

一、模型核心性能表现

1. 基础诊断能力:在内部数据集,AI模型患者级诊断灵敏度达0.95795%CI 0.939-0.971),病灶级灵敏度0.86695%CI 0.845-0.885);按动脉瘤大小分层,灵敏度分别为≥10mm0.910)、5-<10mm0.960)、3-<5mm0.954)、<3mm0.675),仅对<3mm微小动脉瘤检出能力较弱,且平均每例假阳性数仅0.272,动脉瘤阳性与阴性CTA检查假阳性无显著差异(p=0.058)。

2. 与医生性能对比(阶段1):外部验证数据集1中,AI模型患者级灵敏度(0.943)显著高于18名放射科医生与6名介入神经外科医生(0.658p<0.0001),特异性(0.852)与医生(0.852)无差异(p=0.162);AI对有无蛛网膜下腔出血患者的灵敏度无差异(0.953 vs 0.939p=0.492),但医生对有出血患者灵敏度(0.745)显著高于无出血患者(0.621p<0.0001),且AI病灶级灵敏度(0.932)远超医生(0.584p<0.0001)。

二、AI辅助对医生诊断的影响

1. 多读者多病例研究(阶段2):48名医生(含住院医师、主治医师、高级放射科医师、介入神经外科医生)在AI辅助下,患者级AUC0.795提升至0.878p<0.0001),病灶级加权AUC0.765提升至0.865p<0.0001);其中住院医师AUC提升最显著(0.789→0.889),接近高级医师水平,仅2名神经外科医生灵敏度下降,其余46名医生灵敏度平均提升0.194,尤其对<5mm动脉瘤诊断提升明显(3-5mm提升25.9%<3mm提升31.8%),且阅片时间从87.5秒缩短至82.7秒(p<0.0001)。

2. 随机开放标签研究(阶段3):AI辅助组48名医生对AI采纳率达92.6%,仅7.4%诊断未参考AI;其AUC0.858)显著高于对照组(0.789p<0.0001),患者级灵敏度(0.801)也高于对照组(0.660p<0.0001);排除未参考AI的诊断后,结果无显著变化(p=0.801),且未参考AI的诊断灵敏度(0.773)仍高于对照组(p<0.0001),此类诊断多集中于CTA阴性或≥5mm动脉瘤的简单病例。

三、前瞻性临床验证(阶段4

5家医院1562例真实临床CTA病例中,AI模型因图像质量差或识别失败的误差率仅0.51%8/1570);医生结合AI后,AUC0.787提升至0.909p<0.0001),患者级灵敏度从0.590提升至0.825p<0.0001),病灶级灵敏度从0.549提升至0.764p<0.0001),阴性预测值从0.959提升至0.979p=0.0028);AI单独使用时阴性预测值达0.998、灵敏度98.8%,仅18.2%病例需医生二次复核,且98.8%真阳性动脉瘤可被AI检出,新发现动脉瘤中位尺寸仅3.1mm

四、关键结果分析

1. 模型优势:AI在动脉瘤检测中展现高稳健性,性能不受蛛网膜下腔出血影响,假阳性率(0.187/例)远低于此前研究(13.8/例),能有效降低医生工作量;对经验不足医生提升更显著,可缩小不同层级医生诊断差距,且在真实临床场景中接受度高、误差率低,尤其高阴性预测值可可靠排除真阴性病例,优化诊疗流程。

2. 局限关联:AI<3mm动脉瘤检出率较低(0.675),且无法识别血管痉挛、脑积水等并发症;部分数据缺乏金标准DSA验证,可能存在性能高估,且未探究对患者随访的影响,为后续研究指明改进方向。

06 结论

本研究发现单纯使用AI模型即可实现高诊断准确率,且不受蛛网膜下腔出血状态影响,其表现甚至超越临床医生。这种AI辅助策略显著提升了中国各地医院的诊疗水平。更重要的是,该AI模型作为第二诊断参考在真实临床实践中获得高度认可并广泛应用——多数接触AI结果的临床医生都将其作为辅助诊断的重要依据。

07 论文评价

方法创新亮点

    1.设计严谨

    以中国多中心16546CTA图像训练模型,分4阶段(含前瞻性验证)纳入120名医生评估,覆盖真实临床场景,避免单中心、小样本偏倚;

    2.临床价值

    明确AI不仅诊断灵敏度(0.943)远超医生(0.658),还能提升医生诊断AUC值、缩短阅片时间,医生采纳率达92.6%,切实解决动脉瘤漏诊、医生 workload 大等问题;

    3.方法学可靠

    以数字减影血管造影为金标准,采用多读者多病例研究,结果可信度高。

    方法不足

    该模型仅依赖CTA模态,无法识别动脉瘤并发症(如血管痉挛),部分数据缺乏金标准验证,且未探究对患者随访的影响,需进一步完善。整体而言,该研究为医学AI落地临床提供了可靠范式,转化潜力强。

    08 参考资料

    Article:

    DOI:10.1016/S2589-75002300268-6