
本文题为《A deep-learning model for intracranial aneurysm detection on CT angiography images in China: a stepwise, multicentre, early-stage clinical validation study》,由胡斌等人共同完成,作者单位包括南京大学医学院、徐州医科大学等机构,发表于《The Lancet Digital Health》。该研究在中国开展多中心,开发CTA颅内动脉瘤检测AI模型,经四阶段验证:AI单独诊断灵敏度超医生,辅助医生后AUC、灵敏度提升,阅片提速,临床采纳率92.6%,前瞻性应用错误率0.5%,可降漏诊、减负担。
01 摘要
人工智能(AI)模型在真实世界中的应用案例较少,临床医生解读CTA结果存在诸多挑战且耗时费力。该研究开发并验证基于CTA的颅内动脉瘤检测AI模型:以中国多中心16546例CTA图像训练模型,分4阶段纳入120名医生评估。结果显示,AI模型诊断灵敏度(0.943)显著高于医生(0.658),能提升医生诊断AUC值(患者层面0.878 vs 0.795、病灶层面0.865 vs 0.765)、缩短阅片时间,医生对AI采纳率达92.6%。前瞻性验证中,AI误差率仅0.51%,阴性预测值0.998,具备强临床应用潜力。
02 研究背景
1.疾病现状与危害
颅内动脉瘤是常见脑血管病,全球患病率3.2%,中国达7.0%,显著高于全球水平。其破裂是蛛网膜下腔出血的主要原因,此类出血病死率高达50%,早期精准诊断对改善患者临床管理与预后至关重要。
2.现有诊断手段的局限
CT血管造影(CTA)因快速、无创,成为一线临床医生检测颅内动脉瘤的首选模态,在中低收入国家应用需求持续增长。但临床解读存在明显不足:一是动脉瘤因体积小(<5mm小动脉瘤漏诊率达40%)、颅内血管结构复杂,易漏诊或误诊;二是医生经验差异大,导致不同阅片者、不同研究间诊断结果一致性低;三是阅片耗时,随着CTA检查量增加,医生工作负荷加重,进一步增加诊断误差风险。
3.AI技术应用的现有缺口
尽管深度学习在医学影像诊断中潜力显著,且已有15项研究探索AI检测颅内动脉瘤,但存在明显局限:一是研究设计多为回顾性、单中心、病例对照,样本量小且分布不均,难以反映真实临床病例多样性;二是仅5项研究报告AI辅助诊断结果,参与医生不足8人,且未解决验证数据集的基础偏差与谱系偏差;三是无研究填补“模型开发-临床应用”鸿沟,既未说明AI如何提升医生诊断水平,也缺乏真实临床场景的性能验证,导致技术与临床需求脱节。同时,医疗AI落地需严格验证标准,早期临床评估对检验AI系统性能、影响及安全性至关重要,因此需分阶段推进AI模型的临床实施与评估。
03 模型设计
该文中颅内动脉瘤CTA检测AI模型,以“级联双网络架构”为核心,结合多中心数据训练与临床适配设计,实现精度、效率与落地性的统一,具体可概括为三方面:
1. 核心架构:全局-局部级联双网络
采用两步检测逻辑:一是“全局上下文网络”,通过3D卷积提取完整CTA图像特征,结合注意力机制聚焦血管区域,快速筛选动脉瘤候选区域,单例分析耗时仅22.2秒,保障效率;二是“局部细粒度网络”,放大候选区域细节(如瘤体形态、瘤颈连接),区分真阳性动脉瘤与假阳性干扰(如动脉漏斗部),输出位置、大小分层及置信度,重点提升<5mm小动脉瘤检出率(内部验证3-<5mm灵敏度0.954)。
2. 训练与优化:多中心数据支撑+针对性设计
数据基础:基于中国8家医院16546例CTA图像(含14517名患者)训练,2104例有DSA金标准验证,按15:2拆分为训练/内部验证集,纳入有无蛛网膜下腔出血患者及多品牌CT设备数据,确保稳健性(性能不受出血状态影响);
优化策略:采用“分类损失+回归损失”联合优化,对<5mm小动脉瘤加权,缓解样本不均;评估兼顾患者级(灵敏度、AUC)与病灶级(加权ROC)指标,适配临床需求。
3. 临床适配:兼容流程+安全控制
模型可自动对接医院PACS系统,无需特殊预处理;通过“图像质量筛选”(前瞻性验证误差率0.51%)与“高阴性预测值”(0.998)双重控制,仅18.2%病例需医生二次复核,既保障诊断安全,又降低医生工作量,适配真实临床 workflow。
04 实验设置
一、整体实验框架
实验为“模型开发-分层验证-临床落地”的递进设计(参考图1),涉及中国27家医院(8家供训练数据、7家供外部验证数据、15家参与医生研究),以数字减影血管造影(DSA)为动脉瘤诊断金标准,确保结果可信度。
二、关键实验要素
1. 数据集设置
训练与内部验证集:回顾性收集8家医院16546例头颈部CTA图像(含14517名患者),按15:2拆分为训练集(14613例,12817名患者)与内部验证集(1933例,1700名患者),2104例(14.5%)有DSA验证;排除烟雾病、动静脉畸形等特定疾病患者数据。
外部验证集:
数据集1(阶段1):4家医院900例DSA验证CTA病例,用于AI与医生性能对比;
数据集2(阶段2-3):3家医院298例DSA验证CTA病例,用于多读者研究与随机对照;
前瞻性验证集(阶段4):5家医院4周内1562例真实临床CTA病例,排除<18岁或既往动脉瘤患者,未匿名化且需资深医生二次审核。

表1:培训、内部验证、外部验证和前瞻性数据集的特征
2. 参与者设置
招募120名认证临床医生(来自10省15家医院),临床经验2-32年(中位8年),按医院为单位分配至不同阶段,每人仅参与1项研究,且不解读本机构病例(阶段1-3):
医生分组:4个亚组(住院放射科医师、主治放射科医师、高级放射科医师、介入神经外科医生),每家医院各2名;
前瞻性阶段(阶段4):仅8名参与过前3阶段的放射科医师,解读本机构常规CTA病例。
3. 四阶段实验流程
阶段1(AI vs 医生对比):24名医生(18放射科+6神经外科)每人随机解读300例数据集1病例,对比AI与医生的患者级/病灶级诊断性能。
阶段2(多读者多病例研究):48名医生采用交叉设计(含4周洗脱期),分两轮解读数据集2病例(一轮用AI、一轮不用),CTA图像需匿名化、随机化,记录阅片时间与诊断结果,访谈分析阅片效率影响因素。
阶段3(随机开放标签研究):48名医生按“学科+经验”分层,1:1随机分至AI辅助组(默认无AI,需主动点击获取结果)与对照组(无AI),用数据集2验证AI接受度(采纳率)与性能差异。
阶段4(前瞻性临床验证):AI模型部署至5家医院PACS系统,8名放射科医师先独立解读CTA(初始诊断),再结合AI结果复核(最终诊断),记录AI误差率(图像质量差/识别失败)与医生诊断提升效果。
三、评估与统计设置

1. 核心评估指标
主要指标:患者级受试者工作特征曲线下面积(AUC)、病灶级加权替代自由响应ROC曲线下面积(wAFROC);
次要指标:灵敏度、特异性、阳性预测值(PPV)、阴性预测值(NPV)、每例假阳性数、阅片时间、AI采纳率(阶段3)。
2. 统计方法
诊断阈值:基于外部数据集最大尤登指数设为“置信度≥4分”;
分析工具:用MRMCaov、pROC计算AUC,Dorfman-Berbaum-Metz法分析多读者性能,Clopper-Pearson法计算95%CI;
显著性标准:双侧p<0.05为有统计学意义,样本量确保各阶段统计效能>0.90。
05 结果与分析
一、模型核心性能表现
1. 基础诊断能力:在内部数据集,AI模型患者级诊断灵敏度达0.957(95%CI 0.939-0.971),病灶级灵敏度0.866(95%CI 0.845-0.885);按动脉瘤大小分层,灵敏度分别为≥10mm(0.910)、5-<10mm(0.960)、3-<5mm(0.954)、<3mm(0.675),仅对<3mm微小动脉瘤检出能力较弱,且平均每例假阳性数仅0.272,动脉瘤阳性与阴性CTA检查假阳性无显著差异(p=0.058)。
2. 与医生性能对比(阶段1):外部验证数据集1中,AI模型患者级灵敏度(0.943)显著高于18名放射科医生与6名介入神经外科医生(0.658,p<0.0001),特异性(0.852)与医生(0.852)无差异(p=0.162);AI对有无蛛网膜下腔出血患者的灵敏度无差异(0.953 vs 0.939,p=0.492),但医生对有出血患者灵敏度(0.745)显著高于无出血患者(0.621,p<0.0001),且AI病灶级灵敏度(0.932)远超医生(0.584,p<0.0001)。
二、AI辅助对医生诊断的影响
1. 多读者多病例研究(阶段2):48名医生(含住院医师、主治医师、高级放射科医师、介入神经外科医生)在AI辅助下,患者级AUC从0.795提升至0.878(p<0.0001),病灶级加权AUC从0.765提升至0.865(p<0.0001);其中住院医师AUC提升最显著(0.789→0.889),接近高级医师水平,仅2名神经外科医生灵敏度下降,其余46名医生灵敏度平均提升0.194,尤其对<5mm动脉瘤诊断提升明显(3-5mm提升25.9%,<3mm提升31.8%),且阅片时间从87.5秒缩短至82.7秒(p<0.0001)。
2. 随机开放标签研究(阶段3):AI辅助组48名医生对AI采纳率达92.6%,仅7.4%诊断未参考AI;其AUC(0.858)显著高于对照组(0.789,p<0.0001),患者级灵敏度(0.801)也高于对照组(0.660,p<0.0001);排除未参考AI的诊断后,结果无显著变化(p=0.801),且未参考AI的诊断灵敏度(0.773)仍高于对照组(p<0.0001),此类诊断多集中于CTA阴性或≥5mm动脉瘤的简单病例。
三、前瞻性临床验证(阶段4)
在5家医院1562例真实临床CTA病例中,AI模型因图像质量差或识别失败的误差率仅0.51%(8/1570);医生结合AI后,AUC从0.787提升至0.909(p<0.0001),患者级灵敏度从0.590提升至0.825(p<0.0001),病灶级灵敏度从0.549提升至0.764(p<0.0001),阴性预测值从0.959提升至0.979(p=0.0028);AI单独使用时阴性预测值达0.998、灵敏度98.8%,仅18.2%病例需医生二次复核,且98.8%真阳性动脉瘤可被AI检出,新发现动脉瘤中位尺寸仅3.1mm。
四、关键结果分析
1. 模型优势:AI在动脉瘤检测中展现高稳健性,性能不受蛛网膜下腔出血影响,假阳性率(0.187/例)远低于此前研究(13.8/例),能有效降低医生工作量;对经验不足医生提升更显著,可缩小不同层级医生诊断差距,且在真实临床场景中接受度高、误差率低,尤其高阴性预测值可可靠排除真阴性病例,优化诊疗流程。
2. 局限关联:AI对<3mm动脉瘤检出率较低(0.675),且无法识别血管痉挛、脑积水等并发症;部分数据缺乏金标准DSA验证,可能存在性能高估,且未探究对患者随访的影响,为后续研究指明改进方向。
06 结论
本研究发现单纯使用AI模型即可实现高诊断准确率,且不受蛛网膜下腔出血状态影响,其表现甚至超越临床医生。这种AI辅助策略显著提升了中国各地医院的诊疗水平。更重要的是,该AI模型作为第二诊断参考在真实临床实践中获得高度认可并广泛应用——多数接触AI结果的临床医生都将其作为辅助诊断的重要依据。
07 论文评价
✅方法创新亮点
1.设计严谨
以中国多中心16546例CTA图像训练模型,分4阶段(含前瞻性验证)纳入120名医生评估,覆盖真实临床场景,避免单中心、小样本偏倚;
2.临床价值
明确AI不仅诊断灵敏度(0.943)远超医生(0.658),还能提升医生诊断AUC值、缩短阅片时间,医生采纳率达92.6%,切实解决动脉瘤漏诊、医生 workload 大等问题;
3.方法学可靠
以数字减影血管造影为金标准,采用多读者多病例研究,结果可信度高。
⚠方法不足
该模型仅依赖CTA模态,无法识别动脉瘤并发症(如血管痉挛),部分数据缺乏金标准验证,且未探究对患者随访的影响,需进一步完善。整体而言,该研究为医学AI落地临床提供了可靠范式,转化潜力强。
08 参考资料
Article:
DOI:10.1016/S2589-7500(23)00268-6