- 简介奖励模型(RMs)在通过人类反馈对齐大语言模型(LLMs)方面起着基础性作用,但它们常常会遭遇“奖励欺骗”问题。这些模型往往依赖一些表面或虚假的特征,例如回答长度或格式,将训练数据中学习到的相关性线索误认为是质量的真实因果驱动因素(如事实性、相关性)。这种情况的发生是因为标准的训练目标难以区分这些因素,从而导致奖励模型不够稳健,并使策略产生偏差。 我们提出了Crome(因果鲁棒奖励建模),这是一种基于明确因果模型的新框架,旨在缓解奖励欺骗问题。Crome在训练过程中引入了以下两种合成的目标增强方式:(1)因果增强,即在特定因果属性上有所差异的回答对,用于单独强化模型对每个因果属性的敏感性;(2)中性增强,即主要在虚假属性上存在差异但标签相同的问题-回答对,用于确保模型在面对虚假属性时保持不变性。值得注意的是,我们的增强过程无需任何关于虚假因素的先验知识,仅通过对因果维度进行回答干预来生成,而这些因果维度是由查询一个作为“专家”的大语言模型识别得出。 从实验结果来看,Crome在RewardBench基准测试中显著优于标准基线方法,平均准确率提升了最高达5.4%,并在某些类别中分别取得了高达13.2%和7.2%的提升。Crome的鲁棒性还进一步体现在,在各种不断增加N值的Best-of-N推理设置下,它在多个重要任务基准测试中都保持稳定的性能提升,这些任务包括广泛使用的RewardBench(涵盖对话、困难对话、安全性和推理任务)、专注于安全性的WildGuardTest,以及专门针对推理能力的GSM8k。
- 图表
- 解决问题该论文试图解决奖励模型(RMs)在训练过程中容易受到奖励黑客攻击的问题,即RMs可能会过度关注数据中的表面特征(如响应长度或格式)而非真正的因果驱动因素(如事实性和相关性)。这导致了RMs的脆弱性和策略的错位。这是一个长期存在的问题,但Crome框架尝试通过因果建模来改善这一状况。
- 关键思路Crome框架的关键思路是通过显式的因果建模来增强奖励模型的鲁棒性。它引入了两种合成增强方法:1)因果增强,用于生成仅在特定因果属性上不同的样本对,以确保模型对这些属性敏感;2)中立增强,用于生成主要在无关属性上变化的样本对,以确保模型对这些属性不变。此外,这些增强方法无需事先了解无关因素,而是通过干预答案并查询一个oracle LLM来实现。这种方法相比现有研究更注重因果关系的建模,从而减少对表面特征的关注。
- 其它亮点论文通过RewardBench、WildGuardTest和GSM8k等多个基准测试展示了Crome的有效性,在某些类别中取得了高达13.2%的改进,并在Best-of-N推理设置中表现出一致的增益。实验设计涵盖了多种任务类型(如聊天、安全性、推理等),验证了方法的广泛适用性。虽然论文未提及代码开源情况,但其提出的方法值得进一步探索,例如如何扩展到更多领域或任务,以及如何降低对oracle LLM的依赖。
- 近期相关研究包括基于人类反馈的强化学习(RLHF)方法,如InstructGPT系列的研究,以及针对奖励模型稳定性的其他改进工作,例如《Improving Reward Models via Contrastive Learning》和《Robust Reward Modeling with Spurious Correlation Removal》。此外,《Causal Language Modeling for Alignment》一文也探讨了因果建模在对齐问题中的应用。这些研究共同构成了当前对齐大型语言模型的重要方向。
沙发等你来抢
去评论
评论
沙发等你来抢