Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations

简介

大型语言模型（LLMs）在实际应用中存在一个主要障碍，即它们缺乏可靠性。这种情况特别明显的三种情况是：正确性、在面对无法回答的问题时产生幻觉以及安全性。在这三种情况下，模型理想情况下应该像人类一样弃权，因为我们能够理解不确定性，因此会避免回答我们不知道的问题。受分类中类似方法的启发，本研究探讨了在问答领域中，基于不确定性而弃权的可行性和有效性。我们研究了两种不确定性，即统计不确定性度量和一种独特的口头度量，称为In-Dialogue Uncertainty（InDU）。使用这些不确定性度量，结合具有和不具有人类反馈强化学习（RLHF）的模型，我们证明了在这三种情况下，基于正确的不确定性度量的弃权可以提高LLMs的可靠性。通过牺牲仅有的几个高度不确定的样本，我们可以将正确性提高2%至8%，通过正确识别无法回答的问题避免50%的幻觉，并且几乎不需要额外的计算开销，可以将安全性提高70%至99%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提高大语言模型的可靠性，特别是在正确性、幻觉和安全方面。探索在不确定性情况下弃权的可行性和有效性。
关键思路

使用统计不确定性度量和口头不确定度量来判断是否弃权，并结合强化学习和人类反馈来提高可靠性。
其它亮点

通过弃权减少高度不确定样本的数量，可以提高正确性2%到8%，通过正确识别无法回答的问题避免50%的幻觉，几乎不增加计算负担的情况下，将安全性提高70%到99%。
相关研究

最近的相关研究包括：《Uncertainty-aware Learning for Question Answering》、《Asking Clarification Questions in Open-Domain Information-Seeking Conversations》等。

Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations

提问交流

提问交流