Offline Regularised Reinforcement Learning for Large Language Models Alignment

2024年05月29日
  • 简介
    目前对于大型语言模型(LLM)的对齐,无论是通过从人类反馈中进行强化学习还是直接进行偏好优化,主要的框架是从偏好数据中学习。这涉及构建数据集,其中每个元素都由一个提示、两个独立的响应(提示的完成)和人类对两个独立响应之间的偏好组成,得出一个优选和一个不优选的响应。这种数据通常很少,收集起来也很昂贵。另一方面,“单轨迹”数据集中,每个元素都由一个提示、一个响应和人类反馈组成,自然更加丰富。这种数据集的典型元素是LLM对用户提示的响应,然后是用户的反馈,如点赞或点踩。因此,在这项工作中,我们提出了DRO或“直接奖励优化”作为一个框架和相关算法,它不需要成对的偏好。DRO使用一个简单的均方差目标,可以以各种方式实现。我们使用T5编码器-解码器语言模型进行实证验证,并展示了DRO相对于选择的基线(如Kahneman-Tversky Optimization(KTO))的性能。因此,我们确认DRO是一种简单而实证性强的单轨迹策略优化方法。
  • 图表
  • 解决问题
    本文旨在提出一种新的大型语言模型(LLM)对齐框架,称为DRO,通过单轨迹数据集来优化策略,而无需成对的偏好数据。
  • 关键思路
    DRO使用均方误差目标函数,可以通过多种方式实现。相比于当前的Kahneman-Tversky Optimization(KTO)等基线方法,DRO是一种更简单、更有效的方法。
  • 其它亮点
    本文使用T5编码器-解码器语言模型进行实验验证,结果表明DRO相比于KTO等基线方法具有更好的性能。此外,本文提出的方法可以更好地利用单轨迹数据集,从而降低了收集成对偏好数据的成本。
  • 相关研究
    在近期的相关研究中,也有一些关注于LLM对齐问题的研究,如《Learning to Learn from Feedback: An Adversarial Graph Approach for Language Model Fine-Tuning》和《Learning to Learn How to Learn: Self-Adaptive Sampling for Training Large-Scale Language Models》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论