Nat. Med. | 多模态推理如何提升诊断型对话AI

DRUGONE

研究人员提出了一种具备多模态推理能力的对话式诊断人工智能系统——multimodal AMIE。研究人员指出，真实世界中的临床诊疗并不仅依赖文本问答，而是需要综合患者病史、医学影像、心电图、化验单及其他临床文档进行推理。然而，现有大语言模型在医疗领域的大多数评估仍停留在“纯文本聊天”层面，难以覆盖现代远程医疗场景中的复杂多模态交互需求。

为解决这一问题，研究人员开发了一套“状态感知（state-aware）推理框架”，使 AMIE 能够在对话过程中动态追踪患者状态、诊断不确定性以及信息缺口，并主动请求、理解和整合多模态医学信息，包括皮肤照片、心电图和临床文档等。该系统在 105 个模拟远程问诊场景中与基层医生（PCPs）进行了随机双盲对照测试。结果显示，multimodal AMIE 在诊断准确率、病史采集、沟通能力、共情能力以及多模态推理能力等多个维度上整体优于人类医生，在 32 项评估指标中的 29 项取得更高表现。

研究结果表明，多模态状态感知推理能够有效弥合文本信息与视觉医学信息之间的鸿沟，展示了 AI 在复杂远程医疗诊断场景中辅助临床决策的潜力。

全球医疗体系正面临老龄化、医疗资源碎片化以及临床医生职业倦怠等多重压力，导致患者等待时间增加、诊疗延迟以及潜在疾病负担上升。尤其是在基层医疗资源不足地区，远程医疗和数字医疗的重要性日益凸显。

近年来，大语言模型驱动的医疗 AI 展现出巨大发展潜力。此前 AMIE 已经能够在文本诊断对话中达到接近甚至超过基层医生的水平，但这些研究大多局限于文本聊天环境。研究人员认为，这种“文本孤岛”与真实临床实践存在明显差距，因为现代远程医疗高度依赖多模态数据，例如患者上传的皮肤照片、心电图、实验室报告以及影像检查结果。

在真实诊疗过程中，仅依赖文字描述往往无法准确表达关键医学信息。例如，患者很难仅通过文字准确转述化验指标或 ECG 结果，而皮肤病等疾病更是高度依赖视觉判断。文本模型无法利用这些视觉与结构化信息，因此难以形成完整的临床认知。

研究人员进一步指出，仅依赖文本输入还可能加剧远程医疗中的数字鸿沟。相比之下，支持文本、图片、语音与视频共享的即时通讯平台已经在全球广泛普及，也逐渐成为远程医疗交流的重要媒介。因此，医疗 AI 必须具备请求、理解并推理多模态医学数据的能力，才能真正适应未来医疗场景。

在这一背景下，研究人员提出 multimodal AMIE，并引入状态感知推理框架，使系统能够在对话过程中动态管理诊断阶段、信息采集过程以及多模态数据解释行为，从而模拟经验丰富临床医生的诊断思维路径。

方法

研究人员基于 Gemini 2.0 Flash 构建了 multimodal AMIE，并设计了一种“状态感知对话阶段转换框架”。系统将诊疗流程划分为病史采集、诊断与管理、回答追问三个阶段。在每一阶段中，模型都会维护一个内部患者状态，包括当前病情总结、中间鉴别诊断结果以及尚未获取的信息缺口。系统会依据这些内部状态决定是否继续提问、是否请求上传图像或临床文档，以及何时进入诊断阶段。

研究人员还构建了一个自动化模拟环境，用于快速生成患者场景、模拟多轮诊疗对话以及自动评分。系统使用真实数据集中的皮肤病图像、ECG 波形以及临床文档构建虚拟患者，并由 AI 自动生成患者背景、症状描述、既往史和潜在担忧。随后，患者代理与 AMIE 在聊天环境中进行完整对话，最后由自动评分系统依据诊断准确率、信息采集质量、管理方案合理性以及幻觉率等指标进行评估。

为了验证系统真实表现，研究人员进一步开展了随机双盲 OSCE 风格评估实验，共设计 105 个多模态远程问诊场景，并邀请患者演员、基层医生以及多个专科医生共同参与评价。

图1：multimodal AMIE 系统整体框架与随机双盲评估流程。

结果

multimodal AMIE 在 OSCE 评估中整体优于基层医生

研究人员首先进行了随机双盲 OSCE 风格评估。患者演员分别与基层医生和 multimodal AMIE 进行远程文本问诊，过程中允许上传皮肤照片、ECG 或临床文档。结果显示，multimodal AMIE 在绝大多数评估维度中都取得了与医生相当甚至更高的表现。

在诊断准确率方面，multimodal AMIE 的 top-k 鉴别诊断准确率显著高于基层医生，且随着候选诊断数量增加，这种优势始终存在。特别是在 top-1 诊断中，AMIE 更频繁地将真实疾病列为首位诊断。

图2：multimodal AMIE 与基层医生在 OSCE 评估中的诊断准确率和会话质量比较。

多模态推理显著增强诊断能力

研究人员进一步分析了图像质量、多模态推理使用情况以及“幻觉”错误对诊断结果的影响。结果发现，当图像质量较低时，无论是医生还是 AI，诊断准确率都会下降，但 multimodal AMIE 的性能下降幅度明显更小，表现出更强的鲁棒性。

当专科医生认为系统“正确使用了视觉信息”时，AMIE 与医生的诊断准确率都会提高，说明多模态信息确实在诊断过程中发挥了关键作用。此外，在出现“幻觉式误读”时，人类医生的诊断性能下降更明显，而 AMIE 对此更具稳定性。

研究人员还分析了不同模态类型的表现，包括皮肤照片、ECG 和临床文档。结果显示，clinical document 场景整体最容易获得高准确率，而 AMIE 在三种模态中均保持领先。

图3：不同模态数据（皮肤照片、ECG、临床文档）下的性能比较。

患者与专科医生均认为 AMIE 具有更好的沟通质量

患者演员对 multimodal AMIE 的整体体验评分高于基层医生，尤其是在礼貌性、倾听能力、解释能力、共情表现以及患者参与感方面。

特别是在多模态交流相关问题上，患者认为 AMIE 更善于解释图像中的医学发现，也更愿意主动回应患者关于图像内容的问题。研究人员认为，这种“显式视觉解释”可能增强了患者对远程医疗的信任感。

与此同时，18 位专科医生在盲评中也认为 multimodal AMIE 在病史采集、鉴别诊断、管理方案制定以及多模态信息解释等多个维度上优于基层医生。

状态感知推理机制显著提升系统性能

研究人员随后利用自动模拟环境进行了消融实验，对比了带有状态感知推理框架的 multimodal AMIE 与普通 Gemini 模型之间的差异。

结果显示，在 SCIN、PAD-UFES-20、PTB-XL 以及 Clinical Documents 数据集中，引入状态感知推理后，top-1 诊断准确率普遍提升。例如，在 Clinical Documents 中，准确率从 0.89 提高至 0.98；在 PTB-XL ECG 数据中，则从 0.20 提升至 0.28。

此外，系统的信息采集质量和管理方案合理性也明显提高，而幻觉率仍维持较低水平。研究人员认为，这说明“动态阶段转换”和“不确定性感知提问”是提高医疗对话质量的关键。

图4：自动化多模态诊断对话模拟与评估框架。

图5：状态感知推理与历史问诊对系统性能提升的消融实验。

病史采集对于诊断至关重要

研究人员进一步比较了“仅图像输入”和“图像+对话历史”两种模式。结果显示，仅依赖图像进行诊断会显著降低系统表现，而加入完整问诊对话后，所有数据集上的诊断准确率都明显提升。

这一结果表明，即便在拥有高质量视觉输入的情况下，临床病史采集依然是准确诊断不可替代的重要组成部分。

系统具有较好的鲁棒性与泛化能力

研究人员通过 LLM 自动生成不同人格风格、不同人口学背景以及轻微病史变化的患者场景，对系统进行了鲁棒性测试。结果显示，multimodal AMIE 的诊断准确率、信息采集能力、管理方案合理性以及幻觉率在不同场景下保持高度稳定。

此外，研究人员还测试了监督微调（SFT）的效果。虽然微调能够在 ECG 等特定任务上提升性能，但会削弱系统在管理方案制定等其他方面的表现，因此研究人员最终更倾向于采用“强基础模型 + 推理时增强”的方案。

讨论

研究人员认为，本研究最大的贡献在于首次系统性地验证了“多模态推理”在对话式诊断 AI 中的重要价值。相比传统文本聊天机器人，multimodal AMIE 能够在对话过程中主动请求、理解并解释视觉医学信息，从而更接近真实远程医疗场景。

研究人员特别强调，真正困难的问题并不在于模型“是否能识别图像”，而在于如何将图像理解自然融入临床对话流程，同时保持医生式沟通与共情能力。为此，状态感知推理框架成为整个系统的核心。该框架允许模型像真实医生一样分阶段推进问诊，并持续追踪诊断不确定性。

研究人员还指出，患者非常重视 AI 是否能够明确解释视觉证据。相比部分医生仅给出结论，AMIE 更倾向于主动说明图像中的具体发现，这种透明化解释可能会增强患者信任。

不过，研究人员也承认当前系统仍存在多项限制。首先，本研究仍属于探索性模拟实验，而非真正的随机临床试验。其次，文本聊天模式缺乏非语言交流、动态视频观察以及体格检查等重要信息。最后，目前系统支持的模态仍有限，未来需要进一步扩展到放射影像、病理图像等更复杂场景。

总体而言，研究人员认为 multimodal AMIE 展示了未来医疗 AI 的重要发展方向：AI 不再只是“文本问答机器人”，而是能够在真实医疗环境中综合多模态信息、动态推理并完成完整临床交流的智能诊疗系统。

整理 | DrugOne团队

参考资料

Saab, K., Park, C., Strother, T. et al. Advancing conversational diagnostic AI with multimodal reasoning. Nat Med (2026).

https://doi.org/10.1038/s41591-026-04371-0

内容为【DrugOne】公众号原创｜转载请注明来源

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Nat. Med. | 多模态推理如何提升诊断型对话AI

评论列表

评论