在经典的人类反馈强化学习(RLHF)框架中,采用了近端策略优化(PPO)来学习来自稀疏的句子级奖励的知识,这在传统的深度强化学习中是一个具有挑战性的场景。尽管PPO在最先进的闭源大型语言模型(LLMs)的对齐方面取得了巨大成功,但其开源实现仍然存在很大的亚优化问题,这已经被许多研究所广泛报道。为了解决这些问题,我们引入了一个框架,将RLHF问题建模为马尔科夫决策过程(MDP),从而使其能够捕捉到细粒度的基于单词的信息。此外,我们提供了理论洞见,证明了我们的MDP框架优于先前的句子级赌博式制定方案。在这个框架下,我们引入了一种算法,称为强化令牌优化(\texttt{RTO}),它从偏好数据中学习基于单词的奖励函数,并根据这个学习到的基于单词的奖励信号进行策略优化。理论上,\texttt{RTO} 被证明具有在样本有效的情况下找到近似最优策略的能力。在实际实现方面,\texttt{RTO} 创新地将直接偏好优化(DPO)和PPO相结合。DPO最初是从稀疏的句子奖励中得出的,出人意料的是,它为我们提供了响应质量的基于单词的特征,这无缝地融入了我们后续的PPO训练阶段。广泛的实际对齐实验验证了所提出方法的有效性。
提问交流