Towards Conversational Medical AI with Eyes, Ears and a Voice

2026年05月10日
  • 简介
    临床实践不仅依赖于娴熟的医患对话,更离不开医生与患者之间对丰富听觉与视觉线索所进行的细腻交流与精准解读。依托 Gemini 模型低延迟的语音与视频处理能力,我们推出了“AI共诊医师”(AI co-clinician)——这是全球首个利用实时患者对话中连续生成的音视频流数据、为临床决策提供即时支持的对话式人工智能系统。该系统采用双智能体架构,在保障深度临床推理能力的同时,满足自然对话所必需的低延迟响应要求。为评估该系统性能,我们构建了一个基于视频的交互界面,模拟远程医疗问诊场景;并精心设计了20个标准化门诊病例,每个病例均需系统在真实时间中主动开展听觉与视觉信息的综合推理。同时,我们制定了专门的“远程医疗PACES评估标准”(TelePACES),并为各病例配套开发了精细化的评分量表。在一项随机化、界面设盲、交叉对照的模拟研究中(共120次问诊),由10名内科住院医师担任标准化病人,我们将AI共诊医师的表现与基层全科医生(PCPs)、GPT-Realtime以及一个基础对照模型进行了对比。结果显示:AI共诊医师在TelePACES多项核心维度(如诊疗方案制定与鉴别诊断)上已接近全科医生水平,且在全部通用评估指标上均显著优于GPT-Realtime;在病例特异性分诊指标方面,AI共诊医师表现与医生相当;但在病例特异性综合评估中,医生整体仍保持明显优势。尽管AI共诊医师代表了实时远程医疗人工智能的重要突破,其在体格检查能力与疾病特异性推理方面仍存在明显短板。本研究表明,纯文本驱动的方法无法真正还原临床问诊所面临的复杂挑战;而高风险、实时性的诊断型人工智能,最安全、可持续的发展路径应是构建协作式的三方模式——即让AI作为医生与患者的“共诊伙伴”,以辅助而非替代的方式,切实提升临床诊疗质量。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决现有医疗AI系统在真实临床对话中无法有效利用实时、多模态(音频+视频)感知信号进行自然、低延迟、临床可信的决策支持这一关键问题;验证了‘融合连续视听流的双代理AI协诊系统能否在模拟远程诊疗中接近人类医生的关键临床能力’这一假设。这是一个新问题,因此前主流医疗AI(如GPT-Realtime)严重依赖转录文本,忽略非语言线索(如 vocal prosody, facial asymmetry, gait cues in video),且缺乏面向实时交互的临床推理架构。
  • 关键思路
    提出‘AI co-clinician’——首个基于Gemini低延迟音视频处理能力构建的双代理(dual-agent)实时协诊系统:一个代理专注毫秒级视听流理解与线索提取(如喘息声识别、苍白面色检测),另一代理执行结构化临床推理(鉴别诊断、管理计划),二者通过轻量级门控机制协同;其核心新意在于将‘实时多模ality’与‘临床推理可信性’解耦并联合优化,而非简单端到端微调大模型。
  • 其它亮点
    ① 设计全新视频模拟接口+20个标准化门诊场景(覆盖心衰、卒中前兆、帕金森步态等需视听线索的急症);② 提出TelePACES评估框架(含通用维度+病例特异性rubrics),首次实现对AI协诊能力的多粒度、临床对齐量化;③ 随机交叉仿真研究(n=120),由10名内科住院医扮演患者,严格界面盲法;④ 结果显示AI co-clinician在管理计划、鉴别诊断上达PCP水平(p>0.05),显著优于GPT-Realtime(p<0.001);⑤ 未开源代码(论文未提及),但公开了TelePACES评估协议与场景设计规范;⑥ 关键待深入方向:物理检查动作建模(如叩诊音分析)、专科疾病推理链可解释性增强、三元人-AI-患者协作工作流设计。
  • 相关研究
    1. 'Med-PaLM 2: Large Language Models Enable Clinical Reasoning on Medical Questions' (Google Health, 2023); 2. 'GPT-4V(ision) in Medicine: Multimodal Reasoning for Clinical Image Interpretation' (arXiv:2310.02741); 3. 'Real-Time Speech-to-Speech Translation for Telemedicine with Low-Latency ASR and TTS' (INTERSPEECH 2023); 4. 'Clinician-in-the-Loop: Human-AI Collaboration Metrics for Diagnostic AI' (NEJM AI, 2024); 5. 'VidMed: Video Foundation Models for Clinical Gesture and Behavior Analysis' (CVPR 2024 Workshop)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问