Direct Language Model Alignment from Online AI Feedback

2024年02月07日
  • 简介
    最近,直接从偏好中对齐(DAP)方法,如DPO,已成为比从人类反馈中进行强化学习(RLHF)更高效的选择,不需要单独的奖励模型。然而,DAP方法中使用的偏好数据集通常是在训练之前收集的,从未更新,因此反馈纯粹是离线的。此外,这些数据集中的响应通常是从不同于正在对齐的语言模型中抽样的,由于模型在训练过程中会发生变化,因此对齐阶段不可避免地是离策略的。在这项研究中,我们认为在线反馈是关键,可以改善DAP方法。我们的方法,在线AI反馈(OAIF),使用LLM作为注释器:在每个训练迭代中,我们从当前模型中抽取两个响应,并提示LLM注释器选择哪一个更受欢迎,从而提供在线反馈。尽管方法简单,但我们通过在多个任务中进行人类评估证明,OAIF优于离线DAP和RLHF方法。我们进一步表明,OAIF利用的反馈是容易可控的,可以通过指令提示LLM注释器来实现。
  • 解决问题
    本论文试图解决DAP方法在使用静态偏好数据集时的限制,并提出了一种在线反馈的方法,即OAIF,以提高DAP方法的性能。
  • 关键思路
    OAIF方法使用当前模型和LLM注释器来提供在线反馈,以替代静态偏好数据集,从而提高DAP方法的性能。
  • 其它亮点
    OAIF方法在多个任务上经过人类评估,证明其优于离线DAP和RLHF方法。该方法的反馈是可控的,并且可以通过指令提示进行操作。论文还介绍了实验设计,使用的数据集以及开源代码。
  • 相关研究
    最近的相关研究包括使用RLHF和DAP方法进行任务对话建模的研究,以及使用不同类型的注释器进行模型评估的研究,如人类评估和自动评估。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论