From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function

2024年04月18日
  • 简介
    强化学习从人类反馈中学习(RLHF)对最新一代生成式人工智能模型的成功至关重要。针对经典RLHF管道的复杂性,直接对齐算法(如直接偏好优化(DPO))已成为另一种方法。尽管DPO解决了与标准RLHF设置相同的目标,但两种方法之间存在不匹配。标准RLHF在特定的标记级MDP中部署强化学习,而DPO是从整个模型响应中派生出来的赌徒问题,其中整个响应被视为单个臂。在这项工作中,我们纠正了这种差异,首先在理论上展示了我们可以将DPO在标记级MDP中推导为一种通用的反向Q学习算法,它满足贝尔曼方程。利用我们的理论结果,我们提供了三个具体的经验见解。首先,我们展示了由于其标记级解释,DPO能够执行某些类型的信用分配。接下来,我们证明,在标记级公式中,经典的基于搜索的算法(如MCTS),最近已应用于语言生成领域,相当于对DPO策略进行基于似然的搜索。实证上,我们展示了简单的波束搜索比基本的DPO策略能够得到有意义的改进。最后,我们展示了参考策略的选择如何导致隐式奖励在训练过程中下降。我们通过讨论我们的工作的应用,包括在多元对话、推理、代理应用和多模型系统的端到端培训中收集信息。最后得出结论。
  • 图表
  • 解决问题
    本论文试图将Direct Preference Optimization(DPO)算法与标准的强化学习方法在token-level MDP上统一起来,以解决它们之间的不匹配问题。
  • 关键思路
    本论文提出了一种理论上的方法,将DPO算法推导为逆Q-learning算法,并将其应用于token-level MDP中,从而实现DPO算法与标准强化学习方法的统一。此外,本论文还发现了DPO算法的一些亮点,例如它能够执行某种类型的credit assignment,并且搜索算法与DPO策略的似然比搜索等价。
  • 其它亮点
    本论文的实验结果表明,DPO算法在一定程度上能够提高生成语言模型的性能。此外,本文还探讨了DPO算法在多轮对话、推理、agent应用和多模型系统的端到端训练等方面的应用前景。
  • 相关研究
    在相关研究方面,最近的一些研究包括:'Deep Reinforcement Learning for Dialogue Generation'、'Adversarial Learning for Neural Dialogue Generation'、'Variational Autoencoder for Dialogue Generation with Latent Variables'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论