LLMs can learn self-restraint through iterative self-reflection

简介

为了安全地部署大型语言模型（LLMs），它们必须能够根据特定主题的知识水平和不确定性动态地调整其行为，这种自适应行为被称为自我克制，它不容易教授，因为它取决于LLM的内部知识。默认情况下，LLMs的训练是为了最大化下一个标记的可能性，这并不教授模型根据其不确定性调节其答案。为了学习自我克制，我们设计了一种实用函数，可以鼓励模型仅在自信时产生响应。该实用函数可用于对不同长度和弃权的生成进行评分。为了优化这个函数，我们引入了ReSearch，一个“自我反思”的过程，包括迭代的自我提示和自我评估。我们使用ReSearch算法生成合成数据，用于微调我们的模型。与原始版本相比，我们的模型总体上产生更少的“幻觉”，而且没有额外的推理成本，对于已知和未知的主题都是如此，因为模型学会了有选择地克制自己。此外，我们的方法通过在搜索过程中用表示放弃的答案增加模型生成的样本，优雅地融合了放弃的能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何让大型语言模型具备自我控制的能力，避免在不确定的话题上产生不准确的回答？
关键思路

通过设计一种实用函数，鼓励模型在自信时才生成回答，从而学习自我控制的能力。同时使用ReSearch算法生成合成数据进行微调，使模型在已知和未知话题上都能够有效地抑制错误回答。
其它亮点

论文提出的方法可以使大型语言模型在不增加推理成本的情况下，减少产生虚假回答的情况。实验结果表明，该方法在已知和未知话题上都能有效地抑制错误回答，并且能够通过增加放弃回答的选项来增强模型的自我控制能力。
相关研究

相关研究包括：1.《Learning to Self-Correct: Meta-Learning for Language Model Adaptation》；2.《Controllable Neural Text Generation》；3.《Towards Controlled Generation of Text》。

LLMs can learn self-restraint through iterative self-reflection

提问交流

提问交流