- 简介强化学习从人类反馈中学习(RLHF)已成为微调大型语言模型(LLM)的主要方法。然而,由于奖励欺骗和极端多目标优化(即多个和/或有时相互冲突的目标的权衡)的挑战,RLHF在多任务学习(MTL)中存在局限性。目前,将RLHF应用于MTL需要仔细调整奖励模型和数据组合的权重。这通常是通过人类直觉完成的,而且不具有普适性。在这项工作中,我们引入了一种新的后训练范式,称为约束生成策略优化(CGPO)。CGPO的核心是带有成本效益的约束策略优化分层的评委混合(MoJ),可以以原则性的方式确定RLHF的完美组合。它展现了强大的实证结果和理论保证,不需要广泛的超参数调整,并且可以在常见的后训练流水线中即插即用。这可以在达到极其大量的目标时检测和缓解奖励欺骗行为,同时达到帕累托最优点。我们的实证评估表明,CGPO在各种任务中明显优于标准的RLHF算法,如PPO和DPO,包括普通聊天、STEM问题、指令遵循和编码。具体而言,CGPO在AlpacaEval-2(普通聊天)中提高了7.4%,在Arena-Hard(STEM和推理)中提高了12.5%,并在其他领域如数学和编码中持续提高。值得注意的是,虽然PPO常用,但在流行的编码基准测试中容易受到严重的奖励欺骗,而CGPO成功解决了这个问题。这种RLHF的突破不仅解决了奖励欺骗和极端多目标优化的挑战,还推进了将通用的LLM对齐到不同应用的最新技术。
- 图表
- 解决问题解决RLHF在MTL中的奖励欺骗和极端多目标优化挑战的问题
- 关键思路提出了一种后训练范式,称为CGPO,使用MoJ和成本效益的策略优化,通过限制来检测和缓解奖励欺骗行为,同时在极大数量的目标上达到帕累托最优点
- 其它亮点CGPO在各种任务中都表现出显著的优势,包括一般聊天、STEM问题、指令遵循和编码。论文还提出了一种新的评估指标AlpacaEval-2。CGPO成功解决了PPO在流行的编码基准测试中严重奖励欺骗的问题。
- 最近的相关研究包括使用RLHF进行MTL的其他方法,如PPO和DPO。
沙发等你来抢
去评论
评论
沙发等你来抢