首页

位置导航: 首页 > 学术前沿 > 正文

nature medicine(一区IF=50.0)|在全国范围内真实实施人工智能在基于人群的乳房X光检查筛查中进行癌症检测

来源:瓴智医学AI

访问:

2025-10-17 16:19

2E186


这篇文章题为 《Nationwide real-world implementation of AI for cancer detection in population-based mammography screening》,发表于 Nature Medicine(2025年3月,31卷:917–924)。文章由 Nora Eisemann、Stefan Bunk、Trasias Mukama、Hannah Baltus、Susanne A. Elsner、Timo Gomille、Gerold Hecht、Sylvia Heywang-Köbrunner、Regine Rathmann、Katja Siegmann-Luz、Thilo Töllner、Toni Werner Vomweg、Christian Leibig 和 Alexander Katalinic 等人共同完成,主要隶属于 德国吕贝克大学社会医学与流行病学研究所(University of Lübeck, Institute for Social Medicine and Epidemiology)Vara 公司(Berlin, Germany) 等多家机构。

文章基于德国全国乳腺癌筛查项目,开展了一项名为 PRAIM 的前瞻性、多中心、真实世界非劣效性研究。研究纳入超过 46万例女性,比较了 AI辅助双读传统双读 的筛查表现。结果显示,AI辅助双读显著提高了乳腺癌检出率(6.7/1000 vs. 5.7/1000,提升17.6%),同时未增加召回率,并在阳性预测值和活检效率方面均优于对照组。此外,AI的“正常分流”和“安全网”机制有效减少了阅片工作负荷,并检出了一部分可能被漏诊的癌症病例。研究表明,AI在乳腺癌筛查中具有临床可行性与推广潜力,但仍需关注过度诊断风险、长期预后影响以及AI在指南与法律责任中的定位。

01 摘要

人工智能(AI)在乳腺X射线摄影筛查中的应用在回顾性评价中显示出了前景,但很少有前瞻性研究存在。PRAIM是一项观察性、多中心、真实世界、非劣效性、实施研究,在德国的12个研究中心接受有组织乳腺X射线摄影筛查的女性(50-69岁)中比较AI支持的双重阅读与标准双重阅读(无AI)的性能。

这项研究中的放射科医生自愿选择是否使用AI系统,从2021年7月到2023年2月,共对463,094名女性进行了筛查(260,739例AI支持)。AI支持筛查组的放射科医生实现了6.7/1,000的乳腺癌检出率,为17.6%。(95%置信区间:+5.7%,+30.8%)高于并在统计学上上级于人工智能组的召回率为37.4/1000,低于对照组,但不劣于对照组(38.3/1,000)(百分比差异:−2.5%(− 6.5%,AI组回忆的阳性预测值(PPV)为17.9%,对照组为14.9%,AI组活检的阳性预测值为64.5%,对照组为59.2%。与标准的双重阅读相比,AI支持的双重阅读与更高的乳腺癌检测率相关,而不会对召回率产生负面影响,这强烈表明AI可以改善乳腺X射线摄影筛查指标。



02 研究背景

乳腺癌是全球女性最常见的恶性肿瘤,乳腺X线筛查(mammography screening)已被证明能够降低乳腺癌相关死亡率,是国际通行的早期发现手段。
然而,现行的筛查体系仍存在以下问题:

  1. 敏感性不足:部分癌症(尤其是间隔癌)在筛查中未能被发现,导致延迟诊断与治疗。

  2. 特异性不足:假阳性率较高,导致大量女性被召回接受不必要的检查和活检,增加焦虑和医疗成本。

  3. 工作负荷大:筛查项目需要两位独立放射科医生进行“双读”,同时还需召开共识会议以确保敏感性和特异性。这种方式严重依赖人力,而欧洲及全球范围内均存在放射科医师短缺的情况,随着筛查年龄范围的扩大,工作负担进一步加重。

  4. AI的潜力:既往回顾性研究提示人工智能在乳腺癌筛查中的表现不逊于人类放射科医生,甚至在部分场景下优于人工,尤其在识别细微病灶和降低漏诊率方面具有优势。AI还能显著减少阅片工作量。但此前的大多数研究为回顾性或小规模前瞻性研究,缺乏大规模、真实世界的实施验证。

因此,本研究(PRAIM研究)在德国全国性筛查体系中,前瞻性、真实世界地考察了AI与人工双读结合的可行性与效果。

研究难点

  1. 真实世界环境的复杂性:不同筛查中心、不同厂商设备、不同阅片经验的医生,导致数据来源和操作流程高度异质,结果的普适性和可比性存在挑战。

  2. 放射科医生的使用行为偏倚:研究发现,部分医生在决定是否使用AI辅助阅片时,受到AI初步标记(“正常”或“非正常”)的影响,这种“自我选择偏倚”改变了分组的纯粹性,需要复杂的统计方法(如倾向评分加权)来矫正。

  3. 敏感性与特异性的平衡:AI可能提高乳腺导管原位癌(DCIS)的检出率,但这可能带来过度诊断和过度治疗风险;如何平衡“早诊”与“避免过度医疗”仍是未解的问题。

  4. 随访与长期效果评估:虽然短期结果显示AI能提高癌症检出率,但其对间隔癌率、侵袭性癌症分期分布以及患者预后等长期终点的影响仍需2–3年的随访数据才能明确。

  5. 临床路径与法律问题:AI在筛查中的具体定位尚未统一(是替代人工双读,还是辅助决策?),涉及指南更新、风险–收益评估和法律责任划分等层面。


03 模型设计

本研究采用的人工智能系统为 Vara MG(Vara 公司开发,德国本土企业),这是一个通过 CE 认证的医学影像分析系统,专为乳腺癌筛查而设计。系统的核心是基于深度学习的卷积神经网络(CNN),其训练集涵盖超过 200 万幅乳腺X线片,标注来源包括放射科医师的诊断报告、人工勾画的病灶多边形标注(超过 20 万幅影像)以及组织学活检结果。这种多源标注方式确保了模型在良性病变、恶性病变及正常病例间的判别能力。

系统的设计理念是“决策转介(decision referral)”,即AI并非取代医生,而是与医生形成互补。具体包括两个主要功能模块:

  1. 正常分流(Normal triaging)

    • 模型首先对每例筛查影像进行整体评分(0表示最不怀疑,1表示最怀疑)。

    • 当模型的置信度极高,且影像无可疑征象时,系统会将该病例标记为“正常”,并在工作清单中归类,供医生快速批量阅片。

    • 这一机制在设计上追求 高灵敏度,以尽可能降低漏诊率。

  2. 安全网(Safety net)

    • 当模型识别到高度可疑病灶,但放射科医生初判为正常时,系统会触发“安全网”。

    • 此时,AI会在图像上高亮标注可疑区域,并提示医生重新审阅。

    • 这一机制在设计上强调 高特异性,旨在纠正医生的潜在漏判,尤其是对微小或隐匿病灶的检出。


       
    • 25D44

图1 AI支持的查看器屏幕截图

此外,系统采用 双通道优化策略

  • 针对正常分流部分,模型在训练和调参时更注重敏感性,确保大多数癌症病例不会被误判为正常;

  • 针对安全网部分,模型则优化特异性,避免触发过多误报,减轻医生的疲劳和不信任感。

整个AI推理过程为 病例级别,即不仅仅对单张图像评分,而是整合了不同视角(CC、MLO)的图像特征,并结合既往筛查影像(若可用),通过一个聚合模型(aggregation model)输出病例的整体置信度分值。这一设计模拟了放射科医生在临床实践中的综合判读过程。

为保证在真实世界应用中的稳定性,系统在研究期间经历了多次迭代更新(版本 1.0.5 至 2.6.2,共 10 次更新,其中 3 次为AI模型更新),但均未使用研究数据作为训练集,符合医疗器械的合规要求。

最终,Vara MG系统在临床工作流中不仅作为阅片工具提供影像显示和基本操作功能,还承担着 决策支持 的角色:

  • 在高置信度的情况下,减少医生重复劳动;

  • 在高风险情况下,提醒医生进行再次审查;

  • 在不确定情况下,将决策权完全交还给放射科医生。

这种设计平衡了 AI的效率优势医生的专业判断力,避免了完全自动化可能带来的法律和伦理风险。


04 实验设置

  • 研究设计:多中心、真实世界、前瞻性、非劣效性研究(PRAIM研究)。

  • 研究对象:2021年7月至2023年2月,德国12个筛查中心,共 463,094 名 50–69 岁女性参与乳腺癌筛查;最终纳入分析者为 461,818 人。

  • 分组方式

    • AI组:至少一名放射科医生使用 AI 辅助阅片(260,739 人)。

    • 对照组:均为人工双读,不使用 AI(201,079 人)。

  • 操作流程:每位受检者均采集四张标准二维乳腺X线片,由两名放射科医生独立阅片;若有一人认为可疑,则进入共识会议决定是否召回。

  • 主要终点:乳腺癌检出率(Breast Cancer Detection Rate, BCDR)、召回率(Recall Rate)。

  • 次要终点:活检率及阳性预测值(PPV)、不同亚组(年龄、乳腺密度、初筛/复筛)的表现差异,以及工作负荷变化。

  • 统计方法:考虑医生自我选择AI使用的偏倚,采用 倾向评分重叠加权(overlap weighting) 进行混杂校正,并做敏感性分析和因果图验证。

1195C

图2 研究概况

05 结果与分析

    • 总体效果

      • 乳腺癌检出率(BCDR):AI组 6.7/1000,对照组 5.7/1000,提升 17.6%(95% CI: 5.7–30.8%),具统计学显著差异。

      • 召回率(Recall):AI组 37.4/1000,对照组 38.3/1000,差异 −2.5%(非劣效性成立)。

      • PPV:AI组召回PPV为 17.9%,对照组为 14.9%;活检PPV分别为 64.5% 与 59.2%,均显示AI组表现更优。

    • 亚组分析

      • 不论年龄(50–59岁、60–69岁)、乳腺密度(致密/非致密)还是筛查轮次(初筛/复筛),AI均显示更高的癌症检出率(提升 12–23%)。

      • 召回率在大多数亚组中无显著差异。

    • 安全网贡献

      • AI安全网共触发 3,959 次,其中 1,077 次被医生接受,最终额外检出 204 例乳腺癌(其中142例为侵袭癌),若无AI则可能被漏诊。


    11D29



    表1 人工智能预测和对放射科医生决策的贡献

    • 工作负荷

      • AI标记为“正常”的病例阅片时间中位数为 16 秒,显著短于未分类病例(30秒)和触发安全网的病例(99秒),整体 减少约43%的阅片时间

      • 模拟若AI直接自动分流正常病例,可将工作量减少 56.7%,且在癌检出率和召回率上仍保持优于对照组的表现。


    3FA8E



    图3 阅读时间

    06 结论

    本研究基于德国全国性乳腺癌筛查项目的真实世界数据,验证了人工智能在乳腺X线筛查中的临床价值。结果显示,AI支持的双读策略显著提高了乳腺癌检出率(相对提升约17.6%),同时召回率不高于传统双读,并且在阳性预测值(PPV)和活检效率方面均优于对照组。这表明在不增加额外召回和医疗负担的前提下,AI能够帮助医生发现更多癌症病例。AI的“正常分流”和“安全网”机制有效减少了工作负荷,并避免部分潜在漏诊。整体来看,AI在乳腺癌筛查中具有较高的可行性和安全性,未来有望推动筛查指南更新与临床推广应用


    07 论文评价

    方法创新亮点

            • 大规模、真实世界研究:覆盖 46 万余名受检女性、12 个筛查中心、119 名放射科医生,增强了结果的代表性与普适性。

            • 性能提升显著:在不增加召回率的前提下,提高了癌症检出率和活检的PPV。

            • 工作负荷缓解:AI分流机制使阅片时间显著缩短,模拟场景显示工作量可减少超过50%。

            • 安全网机制有效:额外检出200余例癌症,避免潜在漏诊。

            • 亚组一致性:无论年龄、乳腺密度还是初筛/复筛,AI均表现出优势,提示可广泛应用于不同人群。

            方法不足


            本研究虽在真实世界环境中验证了AI在乳腺癌筛查中的价值,但仍存在若干不足。首先,研究为观察性设计,分组依赖放射科医生自我选择是否使用AI,存在潜在选择偏倚,尽管通过倾向评分加权等方法进行了校正,但仍难以完全消除。其次,AI在提高乳腺导管原位癌(DCIS)检出率的同时,也可能带来过度诊断与过度治疗的风险,其对患者长期获益尚不明确。再次,本研究随访时间有限,AI对间隔癌率、侵袭性肿瘤分期分布以及患者预后的长期影响仍需进一步随访验证。此外,放射科医生在实际应用中对AI的依赖程度和交互方式存在差异,可能影响AI的实际效果与推广。最后,AI在筛查流程中的定位、法律责任划分及指南更新等问题仍未完全解决,这些都为其在更大范围内应用带来挑战。


            08 参考资料

            Article:

            doi.org/10.1038/s41591-024-03408-6

            代码链接:

            https://doi.org/10.5281/zenodo.10822135