- 简介全球医疗保健提供者正在探索使用大型语言模型(LLMs)为公众提供医疗建议。目前,大型语言模型在医学执照考试中已接近满分,但这并不一定意味着它们在现实世界中的表现同样准确。我们在一项受控研究中测试了大型语言模型是否能够帮助公众识别潜在疾病并选择行动方案(处置),该研究包括十个医学场景和1,298名参与者。参与者被随机分配接受来自大型语言模型(GPT-4o、Llama 3、Command R+)的帮助,或选择他们自己的信息来源(对照组)。单独测试时,大型语言模型在场景中表现出较高的准确性,平均正确识别疾病的比例为94.9%,正确处置的比例为56.3%。然而,使用相同模型的参与者仅在不到34.5%的情况下识别出相关疾病,且在不到44.2%的情况下选择了正确的处置方案,这两项指标均未优于对照组。我们发现用户与模型的交互是将大型语言模型应用于医疗建议时的一大挑战。现有的医学知识标准基准和模拟患者交互测试无法预测我们在有人类参与者的情况下所发现的失败情况。展望未来,我们建议在医疗领域公开部署大型语言模型之前,进行系统性的人类用户测试以评估其交互能力。
- 图表
- 解决问题该论文试图评估大型语言模型(LLMs)在真实世界中为公众提供医疗建议的能力,特别是它们是否能帮助用户正确识别潜在健康问题并选择合适的行动方案。这是一个重要但尚未完全解决的问题,因为尽管LLMs在医学考试中表现出色,但其实际应用效果仍需验证。
- 关键思路研究的关键思路是通过一项控制实验,比较参与者单独使用LLMs(如GPT-4o、Llama 3等)与传统信息来源(如搜索引擎或个人判断)的表现差异。研究表明,虽然LLMs本身在测试中准确率很高,但用户的交互过程显著降低了整体表现,这揭示了用户界面设计和交互方式的重要性。相比现有研究,本文更关注人机交互对系统性能的影响,而非单纯评估模型的理论能力。
- 其它亮点1. 实验设计严谨:研究涉及1,298名参与者,并随机分配到不同组别进行对比分析;2. 数据透明:提供了明确的条件识别率和处置建议准确性数据;3. 发现交互瓶颈:指出用户与LLM之间的交互可能是导致性能下降的主要原因;4. 推荐改进方向:强调需要更多针对人类用户的系统性测试以优化LLM的实际部署效果。未来可以深入探索如何改善LLM的人机交互体验以及开发专门用于医疗场景的对话系统。
- 近期相关研究包括:1. 「Evaluating Large Language Models Trained on Clinical Data」探讨了基于临床数据训练的LLMs的表现;2. 「ChatGPT for Medical Advice: A Pilot Study」初步测试了ChatGPT在医疗咨询中的可行性;3. 「Benchmarking AI Agents in Simulated Healthcare Scenarios」构建了模拟医疗场景来衡量AI代理的能力。此外,还有关于医学知识基准测试的研究,例如「Med-Bench: A Comprehensive Evaluation Benchmark for Medical AI」。
沙发等你来抢
去评论
评论
沙发等你来抢