- 简介强化学习从人类反馈中学习(RLHF)对于最近大型语言模型(LLM)的成功至关重要,但它通常是一个复杂而脆弱的过程。在经典的RLHF框架中,首先训练一个奖励模型来表示人类偏好,然后在线强化学习(RL)算法使用该模型来优化LLM。这种方法的一个突出问题是奖励过度优化或奖励黑客,即通过学习的代理奖励模型衡量的性能提高,但真正的质量停滞甚至恶化。直接对齐算法(DDA)如直接偏好优化已成为经典RLHF流程的替代方案,通过规避奖励建模阶段。然而,尽管DDA不使用单独的代理奖励模型,它们仍常常因过度优化而恶化。虽然DDA的所谓奖励黑客现象没有被明确定义,但我们仍然发现类似的趋势:在更高的KL预算下,DDA算法表现出类似于经典RLHF的退化模式。特别是,我们发现DDA方法不仅在广泛的KL预算范围内恶化,而且常常在完成数据集的一个时期之前就开始恶化。通过广泛的实证实验,本文为DDA制定和规范了奖励过度优化或黑客问题,并探讨了其在目标、训练制度和模型规模上的后果。
- 图表
- 解决问题本文旨在解决强化学习从人类反馈中学习时出现的奖励过度优化或奖励欺骗问题,并探究其在直接对齐算法中的表现。
- 关键思路直接对齐算法(DDA)是一种不需要奖励模型的替代方案,但仍然容易受到奖励过度优化的影响。本文通过实验发现,DDA算法在较高的KL预算下表现类似于传统的RLHF算法,并提出了解决这一问题的方法。
- 其它亮点本文通过大量实验探究了DDA算法中奖励过度优化问题的表现和影响,并提出了一些解决方案。实验使用了不同的目标、训练方案和模型规模,证明了问题的普适性。此外,论文还提供了开源代码和使用的数据集。
- 与本文相关的研究包括:《Large-Scale Study of Curiosity-Driven Learning》、《Deep Reinforcement Learning that Matters》、《Benchmarking Safety in Deep Reinforcement Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢