Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning

2024年06月30日
  • 简介
    本文探讨了一种新的强化学习与人类反馈(RLHF)方法,通过博弈论视角将问题建模为一个两人博弈,并提出了一种新算法,迭代纳什策略优化(INPO)。INPO让策略通过无悔学习自我对弈,从而逼近纳什策略。与以往方法不同的是,INPO避免了估计个体响应的预期胜率,从而避免了高计算或注释成本。相反,本文提出了一种直接最小化偏好数据集上损失目标的新损失函数。本文对该方法进行了理论分析,并通过在各种代表性基准测试上的实验证明了其有效性。使用基于LLaMA-3-8B的SFT模型,在AlpacaEval 2.0上,INPO实现了41.5%的长度控制胜率,在Arena-Hard上实现了38.3%的胜率,相比BT模型假设下的最新迭代算法[Dong et al.,2024],有了显著提高。此外,我们的消融研究突出了将KL正则化用于响应长度控制的好处。
  • 图表
  • 解决问题
    本论文旨在探索基于人类反馈的强化学习(RLHF)在一般偏好框架下的应用,并提出一种新的算法INPO解决此问题。
  • 关键思路
    INPO算法通过让策略自我对抗,以无悔学习的方式逼近纳什策略,而不需要估计个体响应的预期胜率,从而绕过了高计算或注释成本。
  • 其它亮点
    论文提出的INPO算法在AlpacaEval 2.0和Arena-Hard数据集上都取得了很好的效果,比基于BT模型的最新迭代算法[Dong et al., 2024]有了很大的提升。此外,论文还进行了消融实验,证明了KL正则化在响应长度控制方面的好处。
  • 相关研究
    在最近的相关研究中,还有一些基于RLHF的方法被提出,例如基于BT模型的方法,如[Chen et al., 2021; Liu et al., 2021]。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论