Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

2024年04月04日
  • 简介
    本文研究使用来自强大的“神谕”的偏好反馈来帮助模型逐步改进的后训练大型语言模型(LLMs)。后训练LLMs的典型方法涉及来自人类反馈的强化学习(RLHF),传统上将奖励学习和随后的策略优化分开。然而,这种奖励最大化方法受到“点对”奖励(如Bradley-Terry模型)本质上的限制,无法表达复杂的不传递或循环偏好关系。虽然RLHF的进展表明奖励学习和策略优化可以合并为单个对比目标以实现稳定性,但它们仍然与奖励最大化框架相联系。最近,一波新的研究绕过奖励最大化的假设,而是直接优化“成对”或一般偏好。在本文中,我们介绍了直接纳什优化(DNO),这是一种可证明且可扩展的算法,将对比学习的简单性和稳定性与优化一般偏好的理论普遍性相结合。因为DNO是一个基于回归目标的批处理on-policy算法,所以它的实现是简单和高效的。此外,DNO在迭代过程中具有单调改进的优点,可以帮助它甚至在强大的教师(如GPT-4)之上改进。在我们的实验中,使用DNO对齐的7B参数Orca-2.5模型在AlpacaEval 2.0上实现了33%的最新胜率,即使在控制响应长度的情况下,也比初始化模型的绝对增益高达26%(从7%到33%)。它的表现优于具有更多参数的模型,包括Mistral Large、Self-Rewarding LM(70B参数)和早期版本的GPT-4。
  • 图表
  • 解决问题
    本论文尝试通过使用强大的神谕的偏好反馈来提高后训练大型语言模型(LLMs)的性能。传统的强化学习方法(RLHF)在奖励学习和策略优化方面存在局限性,不能表达复杂的不可传递或循环偏好关系。最近的研究绕过奖励最大化的假设,直接优化“成对”的或一般偏好。本论文提出了直接纳什优化(DNO)算法,将对比学习的简单性和稳定性与优化一般偏好的理论普适性相结合,实现简单高效且具有可证明的可扩展性。通过使用回归目标的批处理在线算法,DNO在迭代过程中实现单调性改进,即使在强教师(如GPT-4)的情况下也能提高性能。
  • 关键思路
    本论文提出了一种新的算法——直接纳什优化(DNO),旨在通过使用一般偏好来提高后训练大型语言模型的性能。相比于传统的奖励最大化方法,DNO算法可以处理更加复杂的偏好关系,具有可证明的可扩展性和单调性改进的优点。
  • 其它亮点
    本论文的亮点在于提出了一种新的算法DNO,可以提高后训练大型语言模型的性能。DNO算法具有可证明的可扩展性和单调性改进的优点。实验结果表明,使用DNO算法训练的Orca-2.5模型在AlpacaEval 2.0数据集上的胜率达到33%,相比于初始化模型的7%获得了26%的绝对收益,表现优于其他更大参数的模型,如Mistral Large、Self-Rewarding LM(70B参数)和早期版本的GPT-4。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Reinforcement Learning from Human Feedback》、《Learning to Learn by Gradient Descent by Gradient Descent》、《Pairwise Word Interaction Modeling with Deep Neural Networks for Semantic Similarity Measurement》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论