Rejection Improves Reliability: Training LLMs to Refuse Unknown Questions Using RL from Knowledge Feedback

2024年03月27日
  • 简介
    本文讨论了大型语言模型(LLMs)的局限性,即在处理超出其知识范围的问题时,容易产生错误的输出,称为幻觉。虽然解决幻觉一直是研究的重点,但以往的努力主要集中在提高正确性上,而没有充分考虑拒绝机制的重要性。本文对拒绝的作用进行了全面的研究,引入了模型可靠性的概念及相应的度量标准。这些度量标准衡量了模型在提供准确响应的同时,善于拒绝超出其知识范围的问题,从而最小化幻觉。为了提高LLMs的内在可靠性,本文提出了一种新的对齐框架,称为从知识反馈中强化学习(RLKF)。RLKF利用知识反馈动态确定模型的知识边界,并训练一个可靠的奖励模型,以鼓励拒绝超出知识范围的问题。在数学问题上的实验结果证实了RLKF在显著提高LLMs可靠性方面的实际功效。
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型(LLMs)生成幻觉输出的问题,提出了一种新的可靠性度量方法,并通过引入拒绝机制来提高LLMs的可靠性。
  • 关键思路
    该论文提出了一种新的对模型可靠性的度量方法,并提出了一种名为RLKF的新框架,通过利用知识反馈来动态确定模型的知识边界,并训练一个可靠的奖励模型来鼓励拒绝超出知识范围的问题,从而提高LLMs的可靠性。
  • 其它亮点
    论文通过实验验证了RLKF在数学问题上显著提高LLMs可靠性的效果,同时还提供了数据集和开源代码供其他研究者使用。值得深入研究的工作包括如何将RLKF应用到其他领域,并进一步探索拒绝机制在提高LLMs可靠性方面的作用。
  • 相关研究
    最近的相关研究包括使用知识库来提高LLMs可靠性的工作,例如《Improving Large Language Models with the Semantic Redundancy of Web Text》和《Improving Language Understanding by Generative Pre-Training》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论