Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF

2024年05月31日
  • 简介
    本文讨论了强化学习从人类反馈中进行模型对齐的中心工具,即基于人类反馈的强化学习(RLHF)。我们考虑在RLHF中进行在线探索,通过有意地鼓励模型生成多样化、信息量最大的响应,利用与人类或AI反馈的交互式访问。在线探索允许RLHF自信地偏离预训练模型,从而提供新颖的、潜在的超人类能力,但由于直接适应现有的强化学习技术存在计算和统计瓶颈,它作为语言模型训练范式的全部潜力尚未被实现。我们提出了一种新的RLHF在线探索算法Exploratory Preference Optimization(XPO),它简单实用——只需对(在线)Direct Preference Optimization(DPO;Rafailov等人,2023)进行一行更改——但拥有已知的最强可证明保证和有前途的实证性能。XPO通过一种新颖而有原则的探索奖励来增强DPO目标,使算法能够在初始模型和人类反馈数据的支持范围之外进行探索。在理论上,我们证明了在自然探索条件下,XPO具有可证明的样本效率,并收敛于接近最优的语言模型策略,无论初始模型是否具有良好的覆盖范围。我们的分析基于DPO隐含地执行$Q^{\star}$-近似(或Bellman误差最小化)的观察,通过KL正则化的马尔可夫决策过程的视角,将语言建模和理论强化学习的先前不同技术巧妙地结合起来。在实证方面,我们发现XPO在初步评估中比非探索性DPO变体具有更高的样本效率。
  • 图表
  • 解决问题
    论文探讨了在线探索在强化学习从人类反馈中进行语言模型对齐中的应用,并提出了一种新的算法XPO解决了现有算法中的计算和统计瓶颈问题。
  • 关键思路
    XPO算法通过在DPO目标函数中加入探索奖励,使得算法能够在模型和人类反馈数据的支持范围之外进行探索,从而实现了在线探索。
  • 其它亮点
    XPO算法是一种简单实用的算法,只需要对DPO算法进行一行修改即可。理论上,XPO算法具有最强的可证明保障,并且在自然探索条件下可以收敛到接近最优的语言模型策略。在实验中,XPO算法比非探索的DPO变体更具有样本效率。
  • 相关研究
    近期的相关研究包括基于人类反馈的强化学习、在线探索算法等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论