首页

位置导航: 首页 > 业界动态 > 正文

一文读懂AI医疗的前世今生——演进与突破,从早期影像识别到多模态大模型(deepseek/qwen等)的兴起与开源战略的价值解读

来源:健澜科技

访问:

2025-10-13 09:06

1 引言:医疗AI的演进历程


  人工智能在医疗领域的发展轨迹可谓一场从单点突破到全面赋能的技术革命。早期的医疗AI主要集中于影像识别与病理分析等特定任务,通过有限的深度学习模型实现单一疾病的辅助诊断。然而,随着技术的迭代演进,特别是大模型技术的爆发式增长,医疗AI正经历从"专用小模型"到"通用大模型+医疗专业调优"的范式转移。这一转变不仅大幅扩展了AI在医疗领域的应用边界,更通过多模态数据处理能力,使AI得以覆盖从预防、诊断、治疗到健康管理的全医疗流程。
  2025年被行业普遍视为"医疗智能体元年",各大企业发布的医疗AI解决方案已逐渐从技术的单一导向,转向场景落地与实际价值转化的深度比拼-1。这一转变的关键驱动力在于,医疗大模型已从单纯的参数竞争,升级为对医疗本质需求的深刻洞察及与临床工作流的无缝集成。联影智能、推想医疗、数坤科技等头部企业竞争力的核心指标,不再是单纯的技术参数,而是映射企业解决临床痛点、适配医疗流程的能力。
   与此同时,开源战略正在中国医疗AI领域扮演越来越重要的角色。DeepSeek、Qwen等国产开源大模型的成熟,为医疗AI提供了强大的基础能力底座,大幅降低了医疗行业获取先进AI技术的门槛。泰格医药等公司已在2025年初完成开源大模型DeepSeek-R1的本地化部署,并以其开源模型Qwen2.5为基座,打造面向医学领域的一站式AI产品——泰雅大模型医疗场景解决方案。这种"通用开源底座+医疗专业调优"的模式,正成为医疗AI发展的主流路径之一。
   本文将系统梳理医疗AI从早期的影像识别技术发展到当前多模态大模型的技术演进路径,深入分析在这一过程中,医疗数据从结构化到非结构化的处理挑战与解决方案,并探讨新一代医院核心信息系统如何为医疗AI提供数据基础,最后展望多模态医疗AI未来的发展方向与面临的挑战。

2 从影像识别到多模态大模型:医疗AI的技术演进路径
2.1 早期医学影像AI的技术突破与局限
  医学影像AI是医疗人工智能中发展最早、商业化最成熟的领域之一。初期的医学影像AI主要基于卷积神经网络(CNN),通过在大量标注影像数据上的训练,实现特定部位的病灶识别。联影智能、推想医疗等企业早期推出的AI平台,主要集中于心脑血管、呼吸、神经、骨科等领域的影像分析,通过获得NMPA三类证、欧盟CE认证和美国FDA认证,逐步进入临床应用。
    这些早期影像AI系统呈现出明显的"单点突破"特征——一个模型通常只针对单一疾病或单一部位。例如,联影智能与中山大学肿瘤防治中心联合研发的脑转移瘤检测系统,专门解决图像量激增、人力不足的临床难题,这一系统已推广至全国461家医院,累计调用量超过7700万次。同样,推想医疗的技术应用贯穿医疗与科研环节,在影像诊断辅助场景中辅助识别多部位影像异常,在手术规划场景通过三维重建助力方案制定。
    然而,这一代的医疗影像AI存在明显的技术局限:首先,它们多为封闭模型,一旦遇到训练数据中未包含的罕见病变,性能会显著下降;其次,模型通常仅能处理单一模态的影像数据,缺乏对临床文本、病理报告等多源信息的综合理解能力;最重要的是,这些系统与临床工作流的整合度较低,往往成为"额外工具"而非"内置智能",反而增加了医生的工作负担。


表1:早期医疗影像AI与当前多模态大模型的技术对比

特性 早期医疗影像AI 当前多模态医疗大模型
技术基础
CNN等专用深度学习架构    
Transformer架构+预训练-微调范式    
数据处理能力
单一影像模态    
多模态(影像、文本、语音、视频)    
疾病覆盖范围
单病种/单部位    
多病种/多部位联合    
系统集成度
独立工具,分散工作流    
嵌入式智能,无缝集成    
知识更新机制
定期重训练    
持续学习,自主进化    
解释性
黑盒决策    
可解释的推理过程    


2.2 病理AI技术的创新与发展
 病理AI作为医学影像AI的重要分支,面临着独特的挑战与机遇。传统的病理诊断依赖医生在显微镜下逐张查看切片,过程耗时且容易因疲劳导致误诊。数字病理技术的发展为AI应用提供了基础,但Whole Slide Imaging(WSI)扫描仪的高成本限制了其在医疗资源受限环境的普及。
   2025年,病理AI技术在自动化与精准化方面取得了显著突破。以DeepAf模型为例,该框架通过结合空间和光谱特征的混合架构,实现了单次预测焦点距离,将聚焦时间相比基于堆栈的方法减少了80%,同时在不同组织类型和染色协议间表现出强大的泛化能力。这一技术的进步,使得将常规显微镜转变为高效玻片扫描仪成为可能,极大地推动了低成本数字化病理在资源受限环境中的应用。
   另一方面,病理大模型的出现正彻底改变传统病理诊断模式。上海交通大学医学院附属瑞金医院与华为共同发布的瑞智病理大模型RuiPath,是基于瑞金医院数字化智慧病理科全业务流程开发的临床级国产多模态互动式病理大模型。该模型的单切片AI诊断时间仅为数秒,能够识别我国每年90%的癌症发病人群罹患的癌种,亚专科知识问答深度达到专家级水平。
  传统病理诊断中,医生需要在显微镜下逐张查看切片,完成诊断后再人工录入报告。而RuiPath能够提前精准识别病灶区域,使医生的工作模式从"在镜下逐个寻找病灶"转变为"以互动方式审核AI诊断结果",从逐片诊断升级为逐步审核,显著提升了诊断效率与质量。这种变革不仅减轻了病理医生的负担,更通过AI的一致性提高了诊断的准确性。
2.3 多模态大模型的兴起与开源战略的价值
  医疗大模型的发展正呈现出通用与专用两条技术路径并进的趋势。通用大模型通过在海量通用语料和医学专业语料上的预训练,获得了强大的自然语言理解与生成能力,而专业医疗大模型则更注重医疗场景的深度适配与多模态协同。
    联影集团发布的"元智"医疗大模型(uAI NEXUS)是专业医疗大模型的典型代表,它融合了文本、影像、视觉、语音、混合五大大模型,构成面向医疗全场景的认知中枢。值得注意的是,即使在自主研发的多模态大模型中,企业也积极吸收通用开源大模型的优势。例如,联影的元智医疗文本大模型在接入DeepSeek后,其复杂推理和文本处理能力均得到大幅提升,并且在保持相同性能的前提下,该模型体积仅是原始模型的四分之一,更易于医院本地化轻量、灵活部署。
  在开源战略方面,DeepSeek、Qwen等国产开源大模型的成熟,为医疗AI提供了丰富的基础模型选择。泰格医药以其开源模型Qwen2.5为基座,打造了面向医学领域的一站式AI产品——泰雅大模型医疗场景解决方案(医雅AI大模型平台),针对医疗场景进行深度适配,在包括医学语言理解、医学语言生成、医学知识问答、复杂医学推理、医疗安全和伦理在内的五大MedBench评测维度打分中取得优异成绩。
  开源大模型的价值在于,它们为医疗机构和初创企业提供了高性能的起点,使其能够将有限资源集中于医疗场景的适配与优化,而非从零开始训练基础模型。这种"站在巨人肩膀上"的开发模式,显著加速了医疗AI技术的普及与应用创新。
3 数据基础与治理:医疗AI发展的基石
3.1 传统核心系统的数据困境
  医疗数据的碎片化与孤岛问题是医疗AI发展面临的首要挑战。过去十年,医院信息化建设多以"烟囱式"系统为主——HIS(医院信息系统)、LIS(实验室信息系统)、EMR(电子病历)、PACS(影像归档和通信系统)等各自独立,数据标准不一、互不流通,导致业务创新几乎寸步难行。
    这种数据割裂的现状直接影响了医疗数据的质量与可用性。根据统计,约60%可预防的医疗错误源于数据碎片化。在牙科领域,这一问题尤为明显,手写处方、纸质病历与异构电子系统并存,导致患者信息无法共享,诊疗连续性大打折扣。传统OCR技术面对中文牙科记录中混杂的专业术语、多语言表述和复杂版式时,识别准确率骤降。
   医疗数据的挑战不仅在于技术层面,更涉及流程与管理。各临床科室往往根据自身需求独立引进信息系统,缺乏统一的规划与数据标准,导致同一患者的信息分散在不同系统中,难以形成统一的全生命周期健康视图。此外,医疗数据的特殊性——包含大量非结构化数据(如影像、病理切片、医生手写笔记等)——进一步增加了数据治理的复杂度。
3.2 新一代医院核心系统的技术突破
  面对传统核心系统的数据困境,2025年医疗机构正积极推进新一代信息系统的建设,其核心特征是以数据中台为引擎,实现数据的统一采集、治理、分析和共享。根据《中国智慧医院建设发展报告(2023)》统计,超过60%的三级医院已将数据中台列为"十四五"数字化转型重点项目,预计2025年覆盖率有望提升至85%以上。
   新一代医院信息系统建设的核心目标,是打破系统壁垒,为临床、管理、科研和患者服务提供高质量的数据支撑。以医院"数智运营管理平台"项目为例,该平台的建设以国家行业标准为基础,整合HIS、EMR、财务等多源数据,构建标准化、可扩展的指标体系和数据中心,支持数据的动态采集、智能分析和可视化展示。更重要的是,该平台引入大模型技术优化资源配置与风险预测,通过运营报表、数据可视化大屏及移动应用实现多维度监控、实时预警和移动决策。
   在技术架构上,智慧医院数据中台通常分为四个核心层级:数据采集层、数据治理层、数据服务层和应用层。这种分层架构的设计,使医院能够在保持现有业务系统稳定运行的同时,逐步完成数据的汇聚与治理,最终实现数据驱动的智能运营与临床决策。


表2:智慧医院数据中台架构与关键功能

架构层级 主要功能 关键技术 医疗应用价值
数据采集层
结构化/非结构化采集    
ETL、接口集成、IoT    
多系统诊疗数据归集    
数据治理层
标准化、质量管理、脱敏    
主数据管理、数据安全    
合规数据资产化,为AI提供高质量数据    
数据服务层
API、服务总线    
微服务、API Gateway    
科室自助建模分析,数据服务化    
应用层
智能决策、分析、服务    
BI工具、AI算法    
临床决策支持、运营优化、患者服务    



3.3 数据治理与多模态融合的技术路径
 高质量的数据是医疗AI可靠性的基础,而数据治理是确保数据质量的关键环节。医疗数据治理包括数据标准化(编码、命名、格式统一)、数据质量管理(清洗、去重、校验、补全)以及数据安全与合规(脱敏、访问控制、审计)等多个维度-。
   在上海交通大学附属第九人民医院开发的MedScreenDental系统中,研究团队采用了创新的多模态融合技术路径,集成了模型上下文协议(MCP)、自适应光学字符识别(OCR)和7个大语言模型(LLM),在1014例真实牙科病例中实现结构化EHR自动生成。该系统的关键技术包含三方面创新:非侵入式屏幕捕捉技术避免API改造;双模型架构中olmOCR-7B专攻牙科术语识别,DeepSeek-V3负责语义验证;独创的临床知识加权评估指标,将BLEU-ROUGE文本相似度与诊断逻辑完备性结合。
     这种多模型协作的架构,能够充分发挥不同模型的专长,实现优势互补。例如,在该系统中,Qwen2.5-VL-72B-Instruct在完整用药记录生成中展现突出优势,而QwQ-32B则擅长从患者自述中提取时序症状模式。这种技术路径的成功,为医疗数据的多模态融合处理提供了可复制的蓝图。
    在医疗多模态检索领域,新提出的M3Retrieve基准正推动多模态检索模型的发展。该基准涵盖5个领域、16个医疗领域和4个不同任务,包含超过120万份文本文档和16.4万个多模态查询,为评估多模态检索模型在医疗环境中的性能提供了标准。这类基准的建立,对于衡量和提升医疗AI在多模态数据上的理解与检索能力至关重要。

4 多模态大模型与医疗智能体:技术架构与场景应用
4.1 多模态大模型的技术创新
  多模态大模型是当前医疗AI技术的核心,其优势在于能够协同处理和理解多种类型的医疗数据,包括影像、文本、语音等。联影的"元智"医疗大模型是这一领域的典型代表,它由文本、影像、视觉、语音、混合五个大模型组成,构成面向医疗全场景的认知中枢。
   在技术层面,医疗多模态大模型呈现出明显的"专业化分工+协同工作"趋势。联影专门打造了专业的元智语音大模型与视觉大模型,前者具备医疗术语精准识别与智能声纹分析能力,即便在嘈杂环境、复杂对话中,仍能精准识别科室、检查、药品和疾病症状等专业术语。后者在医疗领域的视觉任务上,如4D建模医疗场景,通过高速电影级渲染技术,精准描绘、还原器官与组织分割方面,展现出超预期的临床与科研前景价值。
    另一方面,多模态生成技术也取得了显著进展。MeDiM(Medical Discrete Diffusion Model)作为首个医学离散扩散模型,在不依赖模态特定组件的情况下学习跨模态的共享分布,统一了多种生成任务:包括图像和文本之间的转换,以及跨领域响应提示联合生成图像-报告对。实验证明,该方法能够实现高保真度的医学生成(在MIMIC-CXR上FID为16.60,在PathGen上FID为24.19)和准确的报告生成(METEOR 0.2650和0.2580)。
   同时,多模态检索技术的进步为医疗知识管理提供了新工具。M3Retrieve基准的建立,使研究人员能够系统评估多模态检索模型在医疗环境中的表现,探索不同医学专业特有的挑战及其对检索性能的影响。强大的检索模型对于增强生成(RAG)系统在医疗环境中的可靠性至关重要,而RAG正是减少大模型"幻觉"现象的关键技术。


4.2 医疗智能体的场景化应用
   基于多模态大模型,各类医疗智能体正被广泛应用于临床场景,从效率工具转变为"智能协作者"。在2025年一次性发布了十余款适用于影像诊断、临床治疗、医学科教、医院管理、患者服务的多场景智能体,这些智能体以感知、理解、决策、执行为核心能力,支持解决临床痛点。
   在影像诊断领域,uMetaImaging影像全智能体打破了传统AI"单病种、单应用"的局限,依托海量跨模态医学影像数据与文本数据训练,构建起了一套更全面、更专业的影像智能体诊断范式。例如,基于影像大模型,智能体仅需一次胸部CT扫描,即可自动进行胸腔、食管、纵隔、气管与支气管、肺部、骨骼、心脏与大血管等部位37种胸部CT常见病种和异常的检出,"一扫多查"性能平均AUC可达0.92,相较于SOTA提升超10%。
    在临床治疗场景中,手术智能体展现了从理解到精准行动的卓越能力。uAI MERITS多元手术智能体创新性地整合视频、语音、图像等多模态数据,构建起智慧手术室的"眼、脑、手"协同体系。其中,uAI Avatar作为"智能大脑",可通过医生语音指令实时操控手术设备与机械臂;uAI Vision则如同"智慧之眼",提供精准的空间定位支持,实时感知手术器械位置;"智能手"则对应高精度机械臂,实现自适应的器械传递。这种多方协同,共同提升了手术的精准性与安全性。
   在患者服务与医院管理方面,联影推出的"有爱小山-病历助手"依托医疗多模态大模型,可一键生成多种类型的医疗报告,重塑报告书写模式。而专门打造的uMetaGenesis设备管理智能体,则帮助医院管理者全方位掌握设备生命周期、运行情况,对科室可能发生的设备运行故障提前预警并给予相应的指导建议。这些智能体的应用,从不同维度提升了医疗服务的效率与质量。
4.3 诊疗全流程的智能化实践
  医疗AI的价值最终体现在其对诊疗全流程的优化与重构。推想医疗的技术应用展示了AI如何贯穿"筛查-诊断-治疗-随访-科研"的一体化智慧医疗解决方案。而数坤科技的"数字医生"产品组合,则展示了如何为不同层级医疗机构及健康管理机构提供覆盖疾病筛查、诊断、治疗到健康管理的全流程智慧医疗解决方案。
   在具体临床路径中,AI正通过多模态能力解决复杂场景下的医疗挑战。以肿瘤诊疗为例,中山大学肿瘤防治中心副院长孙颖教授指出,AI在肿瘤重疾诊疗中已落地关键场景——在智能放疗领域,"在线自适应放疗"解决了传统计划耗时久、易过度治疗的问题。以鼻咽癌为例,放疗计划从制定到执行仅需20.8分钟,效率全球领先,目前已完成400例次,并获得了两部委的推广。
   在智慧门诊场景,智慧诊室通过"数字医生"预问诊与AI生成完整病历,有效缓解候诊久、医生文书负担重的情况。这些应用表明,医疗AI已从单点工具进化为贯穿 诊疗全流程的 智能基础设施 ,正在重构医疗服务的供给模式。
5 未来发展方向
  面对上述挑战,医疗AI的未来发展将呈现多个明显趋势。首先,多模态融合将更加深入,从当前相对独立的模态处理转向更紧密的跨模态理解与推理。联影集团董事长薛敏指出:"大模型的竞争已经从单纯的'参数竞赛',逐渐转向围绕'生态协同和场景落地'的下半场比拼。"这意味着医疗AI的竞争焦点,将从技术参数转向临床价值创造与生态系统建设。
    其次,个性化医疗将成为医疗AI的重要方向。通过整合患者的基因组数据、生活习惯信息、临床记录和实时监测数据,AI有望为每位患者构建独特的数字孪生,从而实现真正意义上的精准医疗。联影发布的首批医疗级可穿戴设备,涵盖助听器、连续动态血糖监测与心电监测系统,围绕听损、糖尿病与心血管三大慢病,结合全栈AI算法深度赋能,为患者在慢病疾病预防、风险预警,延缓疾病病程、提升康复效果方面,做好"一站式"全生命周期健康管理。
   最后,人机协同的诊疗模式将成为主流。AI不会完全取代医生,而是作为智能协作者,解放医生于繁琐重复性工作,使其更专注于复杂决策和患者关怀。瑞金医院病理科主任王朝夫描述了这一变化:在RuiPath的辅助下,病理医生的工作模式从"在镜下逐个寻找病灶"转变为"以互动方式审核AI诊断结果",从逐片诊断升级为逐步审核。这种工作模式的转变,将显著提升诊断效率与质量,同时保持医生在循环中的最终决策权。
6 结语
  从早期的影像识别AI到当前的多模态大模型,医疗人工智能已完成了一次深刻的技术范式转移。这一转变不仅体现在技术架构上,更体现在医疗AI与临床流程的融合深度与价值创造方式上。随着DeepSeek、Qwen等国产开源大模型的成熟,以及新一代医院信息系统提供的数据基础,医疗AI正进入一个加速发展的新阶段。
   多模态大模型驱动的医疗智能体,正在重构影像诊断、临床治疗、医院管理和患者服务等多个场景的工作模式,使医疗服务更加精准、高效和人本。然而,技术的进步不会停止,医疗AI仍面临着可靠性、可解释性、数据隐私等挑战,需要在技术、法规和伦理等多个层面继续探索。
     展望未来,随着多模态融合技术的不断深入,以及医疗AI与可穿戴设备、机器人等硬件的更紧密结合,我们有望见证一个更加智能化、个性化且普惠的医疗健康生态系统的形成。在这个生态中,医疗AI将不再是独立的工具,而是融入医疗全流程的智能基础设施,最终实现从"治疗"到"预防"、从"标准化"到"个性化"的医疗范式革命。