Answering real-world clinical questions using large language model based systems

简介

医疗决策指导的证据常常受到相关和可信文献的缺乏以及难以将现有研究情境化的限制。大型语言模型(LLMs)可以通过总结已发表的文献或基于真实世界数据(RWD)生成新的研究来解决这两个挑战。我们评估了五个基于LLM的系统回答50个临床问题的能力，并邀请了九名独立医生对答案的相关性、可靠性和可操作性进行审查。目前，通用型LLMs(ChatGPT-4、Claude 3 Opus、Gemini Pro 1.5)很少产生被认为是相关和基于证据的答案(2%-10%)。相比之下，基于检索增强生成(RAG)和代理型LLM系统为24%(OpenEvidence)到58%(ChatRWD)的问题提供了相关和基于证据的答案。只有代理型ChatRWD能够回答新问题，而其他LLMs则不能(65% vs. 0-9%)。这些结果表明，虽然通用型LLMs不能直接使用，但基于RAG的证据总结和生成新证据的专门系统协同工作，将有助于提高患者护理相关证据的可用性。
图表
解决问题

评估基于大型语言模型的系统在回答临床问题方面的能力
关键思路

使用检索增强生成（RAG）和代理型LLM系统能够提供更相关和可靠的答案，而通用型LLM系统则很少能够提供相关和基于证据的答案。建立目的明确的系统，能够提高为患者护理提供相关证据的可用性。
其它亮点

通过对50个临床问题的评估，发现通用型LLM系统的回答很少被认为是相关和基于证据的，而RAG和代理型LLM系统的相关和基于证据的答案比例分别为24%至58%。只有代理型ChatRWD能够回答新问题。
相关研究

最近的相关研究主要集中在大型语言模型的应用和改进方面，如GPT-3、T5等。

Answering real-world clinical questions using large language model based systems

评论