- 简介强化学习从人类反馈中学习(RLHF)是将大型语言模型(LLMs)与人类偏好对齐的关键方法。然而,目前的离线对齐方法,如DPO、IPO和SLiC,严重依赖于固定的偏好数据集,这可能导致次优的性能。另一方面,最近的文献关注于设计在线RLHF方法,但仍缺乏统一的概念性公式,并且存在分布偏移问题。为了解决这个问题,我们确定在线LLM对齐是双层优化的基础。通过将这个公式简化为一个高效的单层一阶方法(使用奖励策略等价性),我们的方法通过探索响应和调节偏好标签生成新的样本并迭代地完善模型对齐。这样做,我们允许对齐方法以在线和自我改进的方式运作,并将先前的在线RLHF方法推广为特殊情况。与最先进的迭代RLHF方法相比,我们的方法在最小的计算开销下显著提高了开源数据集的对齐性能。
- 图表
- 解决问题本文旨在解决大型语言模型与人类偏好的不一致问题,以及当前离线对齐方法在固定偏好数据集下表现不佳的问题。
- 关键思路本文提出了一种基于双层优化的在线语言模型对齐方法,通过探索响应和调节偏好标签,不断生成新样本并迭代地优化模型对齐,从而实现在线自我提高。
- 其它亮点本文提出的方法在开源数据集上显著提高了对齐性能,且计算开销较小。实验设计合理,使用了多个数据集并开源了代码。该方法也可以作为前沿在线RLHF方法的一种泛化形式。
- 近期的相关研究包括DPO、IPO和SLiC等离线对齐方法,以及一些在线RLHF方法,但这些方法仍存在分布偏移问题。
沙发等你来抢
去评论
评论
沙发等你来抢