DPO Meets PPO: Reinforced Token Optimization for RLHF

简介

在经典的人类反馈强化学习（RLHF）框架中，采用了近端策略优化（PPO）来学习来自稀疏的句子级奖励的知识，这在传统的深度强化学习中是一个具有挑战性的场景。尽管PPO在最先进的闭源大型语言模型（LLMs）的对齐方面取得了巨大成功，但其开源实现仍然存在很大的亚优化问题，这已经被许多研究所广泛报道。为了解决这些问题，我们引入了一个框架，将RLHF问题建模为马尔科夫决策过程（MDP），从而使其能够捕捉到细粒度的基于单词的信息。此外，我们提供了理论洞见，证明了我们的MDP框架优于先前的句子级赌博式制定方案。在这个框架下，我们引入了一种算法，称为强化令牌优化（\texttt{RTO}），它从偏好数据中学习基于单词的奖励函数，并根据这个学习到的基于单词的奖励信号进行策略优化。理论上，\texttt{RTO} 被证明具有在样本有效的情况下找到近似最优策略的能力。在实际实现方面，\texttt{RTO} 创新地将直接偏好优化（DPO）和PPO相结合。DPO最初是从稀疏的句子奖励中得出的，出人意料的是，它为我们提供了响应质量的基于单词的特征，这无缝地融入了我们后续的PPO训练阶段。广泛的实际对齐实验验证了所提出方法的有效性。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

论文旨在解决Reinforcement Learning from Human Feedback (RLHF)框架下的稀疏奖励问题，提出一种基于MDP的框架和算法RTO来学习基于单词的奖励信号，并进行策略优化。

关键思路

论文提出的基于MDP的框架和算法RTO可以捕捉单词级别的信息，学习基于单词的奖励信号，并且在实验中表现出较好的效果。

其它亮点

论文提供了理论证明，表明RTO算法具有高效寻找近似最优策略的能力。实验结果表明，RTO算法相比于之前的算法在性能上有了显著提升。

DPO Meets PPO: Reinforced Token Optimization for RLHF

提问交流

提问交流