Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback

2024年03月27日
  • 简介
    本文探讨了大型语言模型(LLMs)生成虚假输出,即幻觉的问题,这是由于它们在识别超出其知识范围的问题方面的局限性所致。虽然解决幻觉一直是研究的重点,但以往的努力主要集中在提高正确性,而没有充分考虑拒绝机制的重要性。本文全面考察了拒绝的作用,引入了模型可靠性的概念以及相应的度量标准。这些度量标准衡量了模型在提供准确响应的同时,熟练地拒绝超出其知识范围的问题,从而最小化幻觉。为了提高LLMs的内在可靠性,我们提出了一种新的对齐框架,称为知识反馈强化学习(RLKF)。RLKF利用知识反馈动态确定模型的知识边界,并训练一个可靠的奖励模型,以鼓励拒绝超出知识范围的问题。数学问题的实验结果证实了RLKF在显著提高LLMs可靠性方面的实质性功效。
  • 图表
  • 解决问题
    论文旨在解决语言模型(LLMs)产生幻觉的问题,即无法识别其知识范围之外的问题。作者提出了一种可靠性度量方法,并介绍了一种新的对齐框架RLKF,以提高LLMs的可靠性。
  • 关键思路
    论文的关键思路是通过引入可靠性度量方法和RLKF框架,动态确定模型的知识边界,并训练一个可靠的奖励模型来鼓励拒绝超出知识范围的问题。
  • 其它亮点
    论文使用RLKF框架在数学问题上进行了实验,结果表明RLKF显著提高了LLMs的可靠性。论文值得注意的亮点包括使用知识反馈、提出可靠性度量方法以及引入RLKF框架。
  • 相关研究
    在最近的相关研究中,有一些关于LLMs可靠性的研究,如《Mitigating Language Model Hallucinations via Uncertainty-aware Self-training》和《Towards Reliable Models for Open-domain Question Answering》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论