- 简介心血管疾病仍是全球死亡的首要原因,而人类对复杂心脏检查结果的解读能力不足,严重制约了诊疗进展。当前的人工智能视觉-语言模型仅支持单模态输入,且缺乏交互能力。为此,我们提出 MARCUS(超声与信号多模态自主推理与对话系统),一种面向心电图(ECG)、超声心动图(Echocardiogram)及心脏磁共振成像(CMR)的端到端解读的多模态、具身式(agentic)视觉-语言系统,既可独立分析各模态数据,亦可协同处理多模态联合输入。MARCUS 采用分层具身式架构,由多个模态专用的视觉-语言专家模型组成;每个专家模型均整合了针对特定医学领域预训练的视觉编码器,并通过多阶段语言模型优化策略进行精调,所有专家模型均由一个统一的多模态协调器(orchestrator)进行调度与协同。该系统在总计1350万张医学图像(含25万份心电图、130万张超声心动图切片、1200万张心脏磁共振图像)以及我们全新构建的、由领域专家精心设计与标注的包含160万道问题的高质量数据集上完成训练。实验表明,MARCUS 在各项任务中均达到当前最优性能,全面超越前沿大模型(如 GPT-5 Thinking、Gemini 2.5 Pro Deep Think)。在内部测试队列(斯坦福大学)和外部验证队列(加州大学旧金山分校,UCSF)中,MARCUS 对心电图解读的准确率达87%–91%,对超声心动图解读达67%–86%,对心脏磁共振成像解读达85%–88%,较前沿模型平均提升34%–45%(P < 0.001)。在多模态联合诊断任务中,MARCUS 准确率达70%,约为前沿模型(22%–28%)的近三倍;其生成的自由文本报告质量评分亦高出1.7–3.0倍。此外,本具身式架构还显著增强了模型对“幻觉推理”(mirage reasoning)的鲁棒性——即传统视觉-语言模型易受无关文本线索干扰或基于虚构/误判的视觉内容进行错误推理的问题。本研究证实:结合领域特异性的视觉编码器与具身式协调机制,可切实支撑临床级多模态心脏影像与信号的联合解读。我们已将全部模型、源代码及评测基准以开源形式向全球研究社区免费发布。
-
- 图表
- 解决问题心血管疾病是全球头号死因,但临床诊断严重依赖医生对复杂、多模态心脏检查(ECG、超声心动图、CMR)的人工解读,存在主观性、可及性差和效率瓶颈。现有AI模型局限于单模态输入、缺乏交互能力,且易受‘幻觉推理’(mirage reasoning)干扰——即从文本噪声或伪造视觉内容中错误推导结论。该问题并非全新,但多模态、自主交互、抗幻觉的端到端心脏诊断智能体此前未被系统实现。
- 关键思路提出MARUS——首个面向临床心脏诊断的层级化自主代理(agentic)视觉-语言系统:1)为每种模态(ECG/echo/CMR)配备领域专用视觉编码器+多阶段微调的语言模型,构成‘专家代理’;2)由统一的多模态协作者(orchestrator)动态调度、融合与验证跨模态推理;3)通过专家标注的1.6M问答数据驱动代理式强化学习与一致性校验,显式抑制mirage reasoning。核心新意在于将‘领域视觉表征+代理式协作+抗幻觉训练’三者深度耦合,而非简单拼接多模态特征。
- 其它亮点在Stanford与UCSF双中心真实临床队列上验证:ECG(87–91%)、echo(67–86%)、CMR(85–88%)准确率全面超越GPT-5 Thinking与Gemini 2.5 Pro Deep Think(+34–45%, p<0.001);多模态联合诊断达70%(基线仅22–28%,近3倍),自由文本质量提升1.7–3.0×;训练数据含13.5M医学图像(含0.25M ECG波形图、1.3M超声帧、12M CMR切片)及全人工专家标注QA;代码、模型、基准测试集全部开源;未来方向包括实时术中交互、纵向病程建模、FDA认证路径探索。
- 1) CheXAgent (NeurIPS 2023) ——胸部X光自主报告生成代理;2) Med-PaLM M (Nature Digital Medicine 2023) ——多模态医疗基础模型,但非代理架构且未针对心脏影像优化;3) EchoNet-Dynamic (JAMA Cardiology 2021) ——单模态超声自动测量模型;4) ECG-YOLO (IEEE TMI 2022) ——ECG波形目标检测框架;5) CMR-BERT (MICCAI 2023) ——CMR序列语言建模,无视觉-语言联合推理
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流