The Lancet Digital Health(一区，IF=24.1)中国CT血管造影图像颅内动脉瘤检测的深度学习模型-徐州医科大学医学信息与工程学院

The Lancet Digital Health(一区，IF=24.1)中国CT血管造影图像颅内动脉瘤检测的深度学习模型

来源：

访问：

2025-10-13 18:31

本文题为《A deep-learning model for intracranial aneurysm detection on CT angiography images in China: a stepwise, multicentre, early-stage clinical validation study》，由胡斌等人共同完成，作者单位包括南京大学医学院、徐州医科大学等机构，发表于《The Lancet Digital Health》。该研究在中国开展多中心，开发CTA颅内动脉瘤检测AI模型，经四阶段验证：AI单独诊断灵敏度超医生，辅助医生后AUC、灵敏度提升，阅片提速，临床采纳率92.6%，前瞻性应用错误率0.5%，可降漏诊、减负担。

01 摘要

人工智能（AI）模型在真实世界中的应用案例较少，临床医生解读CTA结果存在诸多挑战且耗时费力。该研究开发并验证基于CTA的颅内动脉瘤检测AI模型：以中国多中心16546例CTA图像训练模型，分4阶段纳入120名医生评估。结果显示，AI模型诊断灵敏度（0.943）显著高于医生（0.658），能提升医生诊断AUC值（患者层面0.878 vs 0.795、病灶层面0.865 vs 0.765）、缩短阅片时间，医生对AI采纳率达92.6%。前瞻性验证中，AI误差率仅0.51%，阴性预测值0.998，具备强临床应用潜力。

02 研究背景

1.疾病现状与危害

颅内动脉瘤是常见脑血管病，全球患病率3.2%，中国达7.0%，显著高于全球水平。其破裂是蛛网膜下腔出血的主要原因，此类出血病死率高达50%，早期精准诊断对改善患者临床管理与预后至关重要。

2.现有诊断手段的局限

CT血管造影（CTA）因快速、无创，成为一线临床医生检测颅内动脉瘤的首选模态，在中低收入国家应用需求持续增长。但临床解读存在明显不足：一是动脉瘤因体积小（<5mm小动脉瘤漏诊率达40%）、颅内血管结构复杂，易漏诊或误诊；二是医生经验差异大，导致不同阅片者、不同研究间诊断结果一致性低；三是阅片耗时，随着CTA检查量增加，医生工作负荷加重，进一步增加诊断误差风险。

3.AI技术应用的现有缺口

尽管深度学习在医学影像诊断中潜力显著，且已有15项研究探索AI检测颅内动脉瘤，但存在明显局限：一是研究设计多为回顾性、单中心、病例对照，样本量小且分布不均，难以反映真实临床病例多样性；二是仅5项研究报告AI辅助诊断结果，参与医生不足8人，且未解决验证数据集的基础偏差与谱系偏差；三是无研究填补“模型开发-临床应用”鸿沟，既未说明AI如何提升医生诊断水平，也缺乏真实临床场景的性能验证，导致技术与临床需求脱节。同时，医疗AI落地需严格验证标准，早期临床评估对检验AI系统性能、影响及安全性至关重要，因此需分阶段推进AI模型的临床实施与评估。

03 模型设计

该文中颅内动脉瘤CTA检测AI模型，以“级联双网络架构”为核心，结合多中心数据训练与临床适配设计，实现精度、效率与落地性的统一，具体可概括为三方面：

1. 核心架构：全局-局部级联双网络

采用两步检测逻辑：一是“全局上下文网络”，通过3D卷积提取完整CTA图像特征，结合注意力机制聚焦血管区域，快速筛选动脉瘤候选区域，单例分析耗时仅22.2秒，保障效率；二是“局部细粒度网络”，放大候选区域细节（如瘤体形态、瘤颈连接），区分真阳性动脉瘤与假阳性干扰（如动脉漏斗部），输出位置、大小分层及置信度，重点提升<5mm小动脉瘤检出率（内部验证3-<5mm灵敏度0.954）。

2. 训练与优化：多中心数据支撑+针对性设计

数据基础：基于中国8家医院16546例CTA图像（含14517名患者）训练，2104例有DSA金标准验证，按15:2拆分为训练/内部验证集，纳入有无蛛网膜下腔出血患者及多品牌CT设备数据，确保稳健性（性能不受出血状态影响）；

优化策略：采用“分类损失+回归损失”联合优化，对<5mm小动脉瘤加权，缓解样本不均；评估兼顾患者级（灵敏度、AUC）与病灶级（加权ROC）指标，适配临床需求。

3. 临床适配：兼容流程+安全控制

模型可自动对接医院PACS系统，无需特殊预处理；通过“图像质量筛选”（前瞻性验证误差率0.51%）与“高阴性预测值”（0.998）双重控制，仅18.2%病例需医生二次复核，既保障诊断安全，又降低医生工作量，适配真实临床 workflow。

04 实验设置

一、整体实验框架

实验为“模型开发-分层验证-临床落地”的递进设计（参考图1），涉及中国27家医院（8家供训练数据、7家供外部验证数据、15家参与医生研究），以数字减影血管造影（DSA）为动脉瘤诊断金标准，确保结果可信度。

二、关键实验要素

1. 数据集设置

训练与内部验证集：回顾性收集8家医院16546例头颈部CTA图像（含14517名患者），按15:2拆分为训练集（14613例，12817名患者）与内部验证集（1933例，1700名患者），2104例（14.5%）有DSA验证；排除烟雾病、动静脉畸形等特定疾病患者数据。

外部验证集：

数据集1（阶段1）：4家医院900例DSA验证CTA病例，用于AI与医生性能对比；

数据集2（阶段2-3）：3家医院298例DSA验证CTA病例，用于多读者研究与随机对照；

前瞻性验证集（阶段4）：5家医院4周内1562例真实临床CTA病例，排除<18岁或既往动脉瘤患者，未匿名化且需资深医生二次审核。

表1：培训、内部验证、外部验证和前瞻性数据集的特征

2. 参与者设置

招募120名认证临床医生（来自10省15家医院），临床经验2-32年（中位8年），按医院为单位分配至不同阶段，每人仅参与1项研究，且不解读本机构病例（阶段1-3）：

医生分组：4个亚组（住院放射科医师、主治放射科医师、高级放射科医师、介入神经外科医生），每家医院各2名；

前瞻性阶段（阶段4）：仅8名参与过前3阶段的放射科医师，解读本机构常规CTA病例。

3. 四阶段实验流程

阶段1（AI vs 医生对比）：24名医生（18放射科+6神经外科）每人随机解读300例数据集1病例，对比AI与医生的患者级/病灶级诊断性能。

阶段2（多读者多病例研究）：48名医生采用交叉设计（含4周洗脱期），分两轮解读数据集2病例（一轮用AI、一轮不用），CTA图像需匿名化、随机化，记录阅片时间与诊断结果，访谈分析阅片效率影响因素。

阶段3（随机开放标签研究）：48名医生按“学科+经验”分层，1:1随机分至AI辅助组（默认无AI，需主动点击获取结果）与对照组（无AI），用数据集2验证AI接受度（采纳率）与性能差异。

阶段4（前瞻性临床验证）：AI模型部署至5家医院PACS系统，8名放射科医师先独立解读CTA（初始诊断），再结合AI结果复核（最终诊断），记录AI误差率（图像质量差/识别失败）与医生诊断提升效果。

三、评估与统计设置

1. 核心评估指标

主要指标：患者级受试者工作特征曲线下面积（AUC）、病灶级加权替代自由响应ROC曲线下面积（wAFROC）；

次要指标：灵敏度、特异性、阳性预测值（PPV）、阴性预测值（NPV）、每例假阳性数、阅片时间、AI采纳率（阶段3）。

2. 统计方法

诊断阈值：基于外部数据集最大尤登指数设为“置信度≥4分”；

分析工具：用MRMCaov、pROC计算AUC，Dorfman-Berbaum-Metz法分析多读者性能，Clopper-Pearson法计算95%CI；

显著性标准：双侧p<0.05为有统计学意义，样本量确保各阶段统计效能>0.90。

05 结果与分析

一、模型核心性能表现

1. 基础诊断能力：在内部数据集，AI模型患者级诊断灵敏度达0.957（95%CI 0.939-0.971），病灶级灵敏度0.866（95%CI 0.845-0.885）；按动脉瘤大小分层，灵敏度分别为≥10mm（0.910）、5-<10mm（0.960）、3-<5mm（0.954）、<3mm（0.675），仅对<3mm微小动脉瘤检出能力较弱，且平均每例假阳性数仅0.272，动脉瘤阳性与阴性CTA检查假阳性无显著差异（p=0.058）。

2. 与医生性能对比（阶段1）：外部验证数据集1中，AI模型患者级灵敏度（0.943）显著高于18名放射科医生与6名介入神经外科医生（0.658，p<0.0001），特异性（0.852）与医生（0.852）无差异（p=0.162）；AI对有无蛛网膜下腔出血患者的灵敏度无差异（0.953 vs 0.939，p=0.492），但医生对有出血患者灵敏度（0.745）显著高于无出血患者（0.621，p<0.0001），且AI病灶级灵敏度（0.932）远超医生（0.584，p<0.0001）。

二、AI辅助对医生诊断的影响

1. 多读者多病例研究（阶段2）：48名医生（含住院医师、主治医师、高级放射科医师、介入神经外科医生）在AI辅助下，患者级AUC从0.795提升至0.878（p<0.0001），病灶级加权AUC从0.765提升至0.865（p<0.0001）；其中住院医师AUC提升最显著（0.789→0.889），接近高级医师水平，仅2名神经外科医生灵敏度下降，其余46名医生灵敏度平均提升0.194，尤其对<5mm动脉瘤诊断提升明显（3-5mm提升25.9%，<3mm提升31.8%），且阅片时间从87.5秒缩短至82.7秒（p<0.0001）。

2. 随机开放标签研究（阶段3）：AI辅助组48名医生对AI采纳率达92.6%，仅7.4%诊断未参考AI；其AUC（0.858）显著高于对照组（0.789，p<0.0001），患者级灵敏度（0.801）也高于对照组（0.660，p<0.0001）；排除未参考AI的诊断后，结果无显著变化（p=0.801），且未参考AI的诊断灵敏度（0.773）仍高于对照组（p<0.0001），此类诊断多集中于CTA阴性或≥5mm动脉瘤的简单病例。

三、前瞻性临床验证（阶段4）

在5家医院1562例真实临床CTA病例中，AI模型因图像质量差或识别失败的误差率仅0.51%（8/1570）；医生结合AI后，AUC从0.787提升至0.909（p<0.0001），患者级灵敏度从0.590提升至0.825（p<0.0001），病灶级灵敏度从0.549提升至0.764（p<0.0001），阴性预测值从0.959提升至0.979（p=0.0028）；AI单独使用时阴性预测值达0.998、灵敏度98.8%，仅18.2%病例需医生二次复核，且98.8%真阳性动脉瘤可被AI检出，新发现动脉瘤中位尺寸仅3.1mm。

四、关键结果分析

1. 模型优势：AI在动脉瘤检测中展现高稳健性，性能不受蛛网膜下腔出血影响，假阳性率（0.187/例）远低于此前研究（13.8/例），能有效降低医生工作量；对经验不足医生提升更显著，可缩小不同层级医生诊断差距，且在真实临床场景中接受度高、误差率低，尤其高阴性预测值可可靠排除真阴性病例，优化诊疗流程。

2. 局限关联：AI对<3mm动脉瘤检出率较低（0.675），且无法识别血管痉挛、脑积水等并发症；部分数据缺乏金标准DSA验证，可能存在性能高估，且未探究对患者随访的影响，为后续研究指明改进方向。

06 结论

本研究发现单纯使用AI模型即可实现高诊断准确率，且不受蛛网膜下腔出血状态影响，其表现甚至超越临床医生。这种AI辅助策略显著提升了中国各地医院的诊疗水平。更重要的是，该AI模型作为第二诊断参考在真实临床实践中获得高度认可并广泛应用——多数接触AI结果的临床医生都将其作为辅助诊断的重要依据。

07 论文评价

✅方法创新亮点

1.设计严谨

以中国多中心16546例CTA图像训练模型，分4阶段（含前瞻性验证）纳入120名医生评估，覆盖真实临床场景，避免单中心、小样本偏倚；

2.临床价值

明确AI不仅诊断灵敏度（0.943）远超医生（0.658），还能提升医生诊断AUC值、缩短阅片时间，医生采纳率达92.6%，切实解决动脉瘤漏诊、医生 workload 大等问题；

3.方法学可靠

以数字减影血管造影为金标准，采用多读者多病例研究，结果可信度高。

⚠方法不足

该模型仅依赖CTA模态，无法识别动脉瘤并发症（如血管痉挛），部分数据缺乏金标准验证，且未探究对患者随访的影响，需进一步完善。整体而言，该研究为医学AI落地临床提供了可靠范式，转化潜力强。

08 参考资料

Article:

DOI:10.1016/S2589-7500（23）00268-6

首页

The Lancet Digital Health(一区，IF=24.1)中国CT血管造影图像颅内动脉瘤检测的深度学习模型