When to Trust LLMs: Aligning Confidence with Response Quality

2024年04月26日
  • 简介
    尽管大型语言模型在自然语言生成方面取得了成功,但许多证据表明,这些模型可能会产生不正确或无意义的文本。这种限制突显了辨别何时信任大型语言模型的重要性,特别是在安全关键领域。现有的方法依赖于通过诱导前k个响应和采样聚合多个响应来口头表达信心来告诉可靠性,但由于缺乏信心的客观指导,这些方法经常失败。为了解决这个问题,我们提出了一种名为CONfidence-Quality-ORDerpreserving对齐方法(CONQORD),利用了一个定制的双组件奖励函数的强化学习。该函数包括质量奖励和保持顺序对齐奖励函数。具体来说,保持顺序的奖励激励模型对更高质量的响应口头表达更大的信心,以对齐信心和质量的顺序。实验表明,我们的CONQORD显著提高了信心水平和响应准确性之间的对齐性能,而不会使模型过于谨慎。此外,CONQORD提供的对齐信心告诉我们何时信任大型语言模型,并作为启动外部知识检索过程的决定因素。将信心与响应质量对齐确保了更透明、更可靠的响应,提供了更好的可信度。
  • 作者讲解
  • 图表
  • 解决问题
    如何提高大型语言模型的可靠性,尤其是在安全关键领域中的应用?
  • 关键思路
    提出了一种基于强化学习的CONQORD方法,通过奖励函数对模型进行训练,使其在生成文本时能够更好地对应置信度和质量,从而提高可靠性。
  • 其它亮点
    CONQORD方法能够显著提高置信度和响应准确性之间的对齐性,同时不会使模型过于谨慎。通过对置信度和质量的对应,可以更好地判断何时信任大型语言模型,并启动外部知识检索过程。
  • 相关研究
    相关研究包括基于置信度的多响应聚合方法和对抗训练方法等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问