K-QA: A Real-World Medical Q&A Benchmark

2024年01月25日
  • 简介
    确保大型语言模型(LLM)提供的响应准确性至关重要,特别是在临床环境中,不正确的信息可能直接影响患者的健康。为了解决这个挑战,我们构建了K-QA数据集,其中包含1212个患者问题,这些问题源自K Health(一个AI驱动的临床平台)上进行的真实对话。我们聘请内部医生小组回答并手动分解K-QA的子集为自包含语句。此外,我们制定了两个基于NLI的评估指标,近似召回率和精度:(1)全面性,衡量生成答案中基本临床信息的百分比,(2)幻觉率,衡量医生策划的响应中被LLM响应所反驳的语句数量。最后,我们使用K-QA以及这些指标来评估几种最先进的模型,以及作者开发的上下文学习和医学导向的增强检索方案的效果。我们的研究结果表明,上下文学习提高了模型的全面性,而增强检索可以有效地减少幻觉。我们将K-QA提供给社区,以促进医学准确的自然语言处理应用的研究。
  • 作者讲解
  • 图表
  • 解决问题
    如何确保大型语言模型提供的回答在临床设置中准确无误?
  • 关键思路
    构建一个包含真实世界对话中的患者问题的数据集,并使用医生回答和手动分解子句的方法来评估大型语言模型的准确性。同时,提出了两种基于自然语言推理的评估指标,用于衡量回答的全面性和幻觉率。使用这个数据集和指标来评估几种先进的模型,并探讨上下文学习和医学导向的增强检索方案对模型性能的影响。
  • 其它亮点
    论文构建了一个包含真实世界对话中的患者问题的数据集,并使用医生回答和手动分解子句的方法来评估大型语言模型的准确性。提出了两种基于自然语言推理的评估指标,用于衡量回答的全面性和幻觉率。实验结果表明,在上下文学习和医学导向的增强检索方案的帮助下,模型的性能得到了提升。论文提供了开源数据集,以促进医学准确的自然语言处理应用的研究。
  • 相关研究
    最近的相关研究包括:1)使用多任务学习来提高大型语言模型在临床问答中的表现;2)使用知识图谱来帮助回答医学问题;3)使用迁移学习来提高医学问答系统的性能。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问