Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning

向作者提问

NEW

简介

强化学习（RL）已被证明对于调整大型语言模型（LLMs）至关重要，但它可能会导致奖励过度优化（ROO）。现有方法通过添加KL正则化来解决ROO，需要进行计算昂贵的超参数调整。此外，KL正则化仅关注规范化语言策略，忽略了潜在的规范化来源：奖励函数本身。受示范引导RL的启发，我们在这里介绍了来自演示的奖励校准（RCfD），它利用人类示范和奖励模型来重新校准奖励目标。形式上，给定提示，RCfD目标是最小化演示和LLM的奖励之间的距离，而不是直接最大化奖励函数。这种目标转移避免了激励LLM利用奖励模型，并促进了更自然和多样化的语言生成。我们展示了RCfD在三个语言任务上的有效性，它实现了与精心调整的基线相当的性能，同时减轻了ROO的影响。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决的问题是如何在调整大型语言模型时避免奖励过度优化（ROO）的问题，同时避免需要进行计算昂贵的超参数调整。论文提出了使用人类演示和奖励模型来重新校准奖励目标的方法，以避免鼓励模型利用奖励模型，并促进更自然和多样化的语言生成。
关键思路

论文提出了一种基于演示的奖励校准方法（RCfD），该方法将演示和大型语言模型的奖励进行比较，从而避免ROO和奖励模型的利用，并促进更自然和多样化的语言生成。
其它亮点

论文使用三个语言任务展示了RCfD的有效性，并与精心调整的基线相比，取得了可比的性能，同时缓解了ROO。论文还提供了数据集和代码供其他研究者使用。
相关研究

最近的相关研究包括使用KL正则化来解决ROO的方法，以及基于演示的RL方法。相关论文包括：“Addressing Some Limitations of Variational Inference via Score Matching”和“Learning from Demonstrations for Real World Reinforcement Learning”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问