MARCUS: An agentic, multimodal vision-language model for cardiac diagnosis and management

向作者提问

NEW

简介

心血管疾病仍是全球死亡的首要原因，而人类对复杂心脏检查结果的解读能力不足，严重制约了诊疗进展。当前的人工智能视觉-语言模型仅支持单模态输入，且缺乏交互能力。为此，我们提出 MARCUS（超声与信号多模态自主推理与对话系统），一种面向心电图（ECG）、超声心动图（Echocardiogram）及心脏磁共振成像（CMR）的端到端解读的多模态、具身式（agentic）视觉-语言系统，既可独立分析各模态数据，亦可协同处理多模态联合输入。MARCUS 采用分层具身式架构，由多个模态专用的视觉-语言专家模型组成；每个专家模型均整合了针对特定医学领域预训练的视觉编码器，并通过多阶段语言模型优化策略进行精调，所有专家模型均由一个统一的多模态协调器（orchestrator）进行调度与协同。该系统在总计1350万张医学图像（含25万份心电图、130万张超声心动图切片、1200万张心脏磁共振图像）以及我们全新构建的、由领域专家精心设计与标注的包含160万道问题的高质量数据集上完成训练。实验表明，MARCUS 在各项任务中均达到当前最优性能，全面超越前沿大模型（如 GPT-5 Thinking、Gemini 2.5 Pro Deep Think）。在内部测试队列（斯坦福大学）和外部验证队列（加州大学旧金山分校，UCSF）中，MARCUS 对心电图解读的准确率达87%–91%，对超声心动图解读达67%–86%，对心脏磁共振成像解读达85%–88%，较前沿模型平均提升34%–45%（P < 0.001）。在多模态联合诊断任务中，MARCUS 准确率达70%，约为前沿模型（22%–28%）的近三倍；其生成的自由文本报告质量评分亦高出1.7–3.0倍。此外，本具身式架构还显著增强了模型对“幻觉推理”（mirage reasoning）的鲁棒性——即传统视觉-语言模型易受无关文本线索干扰或基于虚构/误判的视觉内容进行错误推理的问题。本研究证实：结合领域特异性的视觉编码器与具身式协调机制，可切实支撑临床级多模态心脏影像与信号的联合解读。我们已将全部模型、源代码及评测基准以开源形式向全球研究社区免费发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

心血管疾病是全球头号死因，但临床诊断严重依赖医生对复杂、多模态心脏检查（ECG、超声心动图、CMR）的人工解读，存在主观性、可及性差和效率瓶颈。现有AI模型局限于单模态输入、缺乏交互能力，且易受‘幻觉推理’（mirage reasoning）干扰——即从文本噪声或伪造视觉内容中错误推导结论。该问题并非全新，但多模态、自主交互、抗幻觉的端到端心脏诊断智能体此前未被系统实现。
关键思路

提出MARUS——首个面向临床心脏诊断的层级化自主代理（agentic）视觉-语言系统：1）为每种模态（ECG/echo/CMR）配备领域专用视觉编码器+多阶段微调的语言模型，构成‘专家代理’；2）由统一的多模态协作者（orchestrator）动态调度、融合与验证跨模态推理；3）通过专家标注的1.6M问答数据驱动代理式强化学习与一致性校验，显式抑制mirage reasoning。核心新意在于将‘领域视觉表征+代理式协作+抗幻觉训练’三者深度耦合，而非简单拼接多模态特征。
其它亮点

在Stanford与UCSF双中心真实临床队列上验证：ECG（87–91%）、echo（67–86%）、CMR（85–88%）准确率全面超越GPT-5 Thinking与Gemini 2.5 Pro Deep Think（+34–45%, p<0.001）；多模态联合诊断达70%（基线仅22–28%，近3倍），自由文本质量提升1.7–3.0×；训练数据含13.5M医学图像（含0.25M ECG波形图、1.3M超声帧、12M CMR切片）及全人工专家标注QA；代码、模型、基准测试集全部开源；未来方向包括实时术中交互、纵向病程建模、FDA认证路径探索。
相关研究

1) CheXAgent (NeurIPS 2023) ——胸部X光自主报告生成代理；2) Med-PaLM M (Nature Digital Medicine 2023) ——多模态医疗基础模型，但非代理架构且未针对心脏影像优化；3) EchoNet-Dynamic (JAMA Cardiology 2021) ——单模态超声自动测量模型；4) ECG-YOLO (IEEE TMI 2022) ——ECG波形目标检测框架；5) CMR-BERT (MICCAI 2023) ——CMR序列语言建模，无视觉-语言联合推理

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问