Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations

2024年04月16日
  • 简介
    大型语言模型(LLMs)在实际应用中存在一个主要障碍,即它们缺乏可靠性。这种情况特别明显的三种情况是:正确性、在面对无法回答的问题时产生幻觉以及安全性。在这三种情况下,模型理想情况下应该像人类一样弃权,因为我们能够理解不确定性,因此会避免回答我们不知道的问题。受分类中类似方法的启发,本研究探讨了在问答领域中,基于不确定性而弃权的可行性和有效性。我们研究了两种不确定性,即统计不确定性度量和一种独特的口头度量,称为In-Dialogue Uncertainty(InDU)。使用这些不确定性度量,结合具有和不具有人类反馈强化学习(RLHF)的模型,我们证明了在这三种情况下,基于正确的不确定性度量的弃权可以提高LLMs的可靠性。通过牺牲仅有的几个高度不确定的样本,我们可以将正确性提高2%至8%,通过正确识别无法回答的问题避免50%的幻觉,并且几乎不需要额外的计算开销,可以将安全性提高70%至99%。
  • 作者讲解
  • 图表
  • 解决问题
    提高大语言模型的可靠性,特别是在正确性、幻觉和安全方面。探索在不确定性情况下弃权的可行性和有效性。
  • 关键思路
    使用统计不确定性度量和口头不确定度量来判断是否弃权,并结合强化学习和人类反馈来提高可靠性。
  • 其它亮点
    通过弃权减少高度不确定样本的数量,可以提高正确性2%到8%,通过正确识别无法回答的问题避免50%的幻觉,几乎不增加计算负担的情况下,将安全性提高70%到99%。
  • 相关研究
    最近的相关研究包括:《Uncertainty-aware Learning for Question Answering》、《Asking Clarification Questions in Open-Domain Information-Seeking Conversations》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问