- 简介在经典的人类反馈强化学习(RLHF)框架中,采用了近端策略优化(PPO)来学习来自稀疏的句子级奖励的知识,这在传统的深度强化学习中是一个具有挑战性的场景。尽管PPO在最先进的闭源大型语言模型(LLMs)的对齐方面取得了巨大成功,但其开源实现仍然存在很大的亚优化问题,这已经被许多研究所广泛报道。为了解决这些问题,我们引入了一个框架,将RLHF问题建模为马尔科夫决策过程(MDP),从而使其能够捕捉到细粒度的基于单词的信息。此外,我们提供了理论洞见,证明了我们的MDP框架优于先前的句子级赌博式制定方案。在这个框架下,我们引入了一种算法,称为强化令牌优化(\texttt{RTO}),它从偏好数据中学习基于单词的奖励函数,并根据这个学习到的基于单词的奖励信号进行策略优化。理论上,\texttt{RTO} 被证明具有在样本有效的情况下找到近似最优策略的能力。在实际实现方面,\texttt{RTO} 创新地将直接偏好优化(DPO)和PPO相结合。DPO最初是从稀疏的句子奖励中得出的,出人意料的是,它为我们提供了响应质量的基于单词的特征,这无缝地融入了我们后续的PPO训练阶段。广泛的实际对齐实验验证了所提出方法的有效性。
- 图表
- 解决问题论文旨在解决Reinforcement Learning from Human Feedback (RLHF)框架下的稀疏奖励问题,提出一种基于MDP的框架和算法RTO来学习基于单词的奖励信号,并进行策略优化。
- 关键思路论文提出的基于MDP的框架和算法RTO可以捕捉单词级别的信息,学习基于单词的奖励信号,并且在实验中表现出较好的效果。
- 其它亮点论文提供了理论证明,表明RTO算法具有高效寻找近似最优策略的能力。实验结果表明,RTO算法相比于之前的算法在性能上有了显著提升。
- 与该论文相关的研究包括:Proximal Policy Optimization (PPO)算法、Direct Preference Optimization (DPO)算法等。
沙发等你来抢
去评论
评论
沙发等你来抢