BPO: Supercharging Online Preference Learning by Adhering to the Proximity of Behavior LLM

2024年06月18日
  • 简介
    直接从偏好中对齐(DAP)已成为一种有前途的范例,用于将大型语言模型(LLM)与预先收集的离线偏好数据集中的人类期望对齐。虽然最近的研究表明,现有的离线DAP方法可以直接从在线训练样本中受益,但我们强调需要开发特定的在线DAP算法,以充分利用在线训练的能力。具体而言,我们确定了学习的LLM应遵循收集训练样本的行为LLM的接近度。为此,我们提出了在线偏好优化接近行为LLM(BPO)的方法,强调构建适当的信任区间以对齐LLM的重要性。我们进行了大量实验证明了我们的方法的有效性和适用性,将其与各种DAP方法集成后,在使用相同数量的偏好数据进行训练时,在各种任务中都获得了显着的性能提升。即使只引入一个附加的数据收集阶段,我们的在线BPO也可以将其离线DAP基线从TL;DR的72.0%提高到80.2%,在人类参考文本的背景下,从Anthropic Helpfulness的82.2%提高到89.1%的胜率。
  • 图表
  • 解决问题
    本文旨在解决将大型语言模型对齐到人类期望的问题,提出了一种在线DAP算法,以充分利用在线训练数据。
  • 关键思路
    本文提出了一种在线Preference Optimization in proximity to the Behavior LLM (BPO)算法,强调构建适当的信任区域以实现LLM对齐。
  • 其它亮点
    实验结果表明,与各种DAP方法相结合,本文方法可以显著提高性能,即使只引入一个数据收集阶段,也可以将离线DAP基线从72.0%提高到80.2%(TL;DR任务)和从82.2%提高到89.1%(Anthropic Helpfulness任务)。
  • 相关研究
    最近的相关研究包括:《Preference-Based Reinforcement Learning: A Comprehensive Survey》、《Preference-Based Policy Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论