- 简介在数万亿个标记上进行预训练的LLM,但预训练的LLM仍可能生成不良响应。为解决此问题,提出了RLHF、DPO和KTO等对齐技术。然而,这些对齐技术存在局限性。例如,RLHF需要单独训练奖励模型和策略,这是复杂、耗时、占用内存且在训练过程中不稳定的。DPO提出了最优策略和奖励之间的映射,极大地简化了RLHF的训练过程。但是,它不能充分利用奖励模型的优势,而且仅限于成对偏好数据。 在本文中,我们提出了统一对齐(UNA),它将RLHF/PPO、DPO和KTO统一起来。首先,我们在数学上证明了,给定经典的RLHF目标,最优策略是由一个广义的隐式奖励函数引导的。通过这种新颖的奖励模型和最优策略之间的映射,UNA可以1.将RLHF/PPO、DPO和KTO统一为最小化隐式奖励和显式奖励之间差异的监督学习;2.在简化、稳定、加速和减轻RL微调过程的记忆负担的同时,优于RLHF/PPO;3.适应不同的反馈类型,包括成对、二进制和标量反馈。下游实验表明,UNA优于DPO、KTO和RLHF。
- 图表
- 解决问题论文旨在解决预训练语言模型生成不良响应的问题,并提出一种名为UNA的统一对齐方法,以提高对齐技术的效率和准确性。
- 关键思路UNA将RLHF/PPO,DPO和KTO统一到一种监督学习中,通过最小化隐式奖励和显式奖励之间的差异来实现对齐。
- 其它亮点论文提出了一种新的映射方法,将奖励模型与最优策略相联系,使得UNA能够适应不同的反馈类型。实验结果表明,UNA在性能上优于DPO,KTO和RLHF,并且能够简化、稳定、加速和减少RL微调过程的内存负担。
- 近期的相关研究包括《Deep Reinforcement Learning for Dialogue Generation》和《A Survey on Dialogue Systems: Recent Advances and New Frontiers》。
沙发等你来抢
去评论
评论
沙发等你来抢