When to Trust LLMs: Aligning Confidence with Response Quality

简介

尽管大型语言模型在自然语言生成方面取得了成功，但许多证据表明，这些模型可能会产生不正确或无意义的文本。这种限制突显了辨别何时信任大型语言模型的重要性，特别是在安全关键领域。现有的方法依赖于通过诱导前k个响应和采样聚合多个响应来口头表达信心来告诉可靠性，但由于缺乏信心的客观指导，这些方法经常失败。为了解决这个问题，我们提出了一种名为CONfidence-Quality-ORDerpreserving对齐方法(CONQORD)，利用了一个定制的双组件奖励函数的强化学习。该函数包括质量奖励和保持顺序对齐奖励函数。具体来说，保持顺序的奖励激励模型对更高质量的响应口头表达更大的信心，以对齐信心和质量的顺序。实验表明，我们的CONQORD显著提高了信心水平和响应准确性之间的对齐性能，而不会使模型过于谨慎。此外，CONQORD提供的对齐信心告诉我们何时信任大型语言模型，并作为启动外部知识检索过程的决定因素。将信心与响应质量对齐确保了更透明、更可靠的响应，提供了更好的可信度。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何提高大型语言模型的可靠性，尤其是在安全关键领域中的应用？
关键思路

提出了一种基于强化学习的CONQORD方法，通过奖励函数对模型进行训练，使其在生成文本时能够更好地对应置信度和质量，从而提高可靠性。
其它亮点

CONQORD方法能够显著提高置信度和响应准确性之间的对齐性，同时不会使模型过于谨慎。通过对置信度和质量的对应，可以更好地判断何时信任大型语言模型，并启动外部知识检索过程。
相关研究

相关研究包括基于置信度的多响应聚合方法和对抗训练方法等。

When to Trust LLMs: Aligning Confidence with Response Quality

提问交流

提问交流