Evaluating Large Language Models for Health-related Queries with Presuppositions

2023年12月14日
  • 简介
    随着企业争相将大型语言模型(LLMs)整合到其搜索产品中,提供事实准确、能够抵御用户可能表达的任何预设假设的信息至关重要。在这项工作中,我们介绍了UPHILL数据集,该数据集包含了涉及健康问题的查询,具有不同程度的预设假设。使用UPHILL,我们评估了InstructGPT、ChatGPT和BingChat模型的事实准确性和一致性。我们发现,虽然模型响应很少与真实的健康要求不一致(作为问题提出),但它们经常无法挑战虚假的要求:InstructGPT的响应与虚假要求一致的比例为32%,ChatGPT为26%,BingChat为23%。随着我们增加输入查询中预设假设的程度,无论其真实性如何,InstructGPT和ChatGPT的响应都更经常地与要求一致。依赖于检索的网页的BingChat的响应则不那么容易受到影响。鉴于中等的事实准确性和模型无法始终纠正虚假假设的能力,我们的工作呼吁对目前的LLMs进行谨慎评估,以在高风险场景中使用。
  • 图表
  • 解决问题
    评估大型语言模型在健康查询中的事实准确性和一致性,并探讨其能否挑战错误假设。
  • 关键思路
    使用UPHILL数据集评估InstructGPT、ChatGPT和BingChat模型的表现,发现它们很少与真实健康声明不一致,但常常未能挑战错误假设。
  • 其它亮点
    论文介绍了UPHILL数据集,包含具有不同程度假设的健康相关查询,实验发现当前模型的事实准确性中等,且不能始终纠正错误假设,需要在高风险场景下谨慎使用。
  • 相关研究
    最近的相关研究包括“BERT对医学文本分类的应用”和“医学领域中的大型语言模型研究进展”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论