Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning

简介

目前，强化学习与人类反馈（RLHF）已成为当前大型语言模型管道中广泛采用的方法，但其“瓶颈在于人类偏好数据的规模”。传统方法依赖于离线偏好数据集的构建，而最近的方法已经转向在线设置，其中学习者使用少量标记的种子数据和大量未标记的提示来迭代地通过自动生成的响应和高质量的奖励/偏好反馈构建新的偏好数据。然而，大多数当前的在线算法仍然专注于在给定反馈预言家的情况下进行偏好标记，这会产生显著的专家查询成本。我们是第一个探索成本效益的代理奖励预言家构建策略，以进一步标记偏好或奖励的极少标记数据和专家查询预算。我们的方法引入了两个关键创新：（1）在政策模型更新期间进行现场查询，以避免种子数据中的OOD和不平衡问题，（2）主动学习以选择最具信息量的数据进行偏好查询。使用这些方法，我们使用最少的专家标记数据训练了一个评估模型，然后有效地标记了更多的偏好对，以进行进一步的RLHF训练。例如，我们使用直接偏好优化（DPO）的模型在AlpacaEval2、MMLU-5shot和MMLU-0shot上平均提高了1%以上，仅需1.7K的查询成本。我们的方法与其他基于直接专家查询的策略正交，因此可以与它们集成以进一步降低查询成本。
图表
解决问题

本论文旨在解决强化学习中人类反馈数据规模的瓶颈问题，提出了一种代价效益的代理奖励策略，以进一步标记偏好或奖励，仅使用极少量的标记数据和专家查询预算。
关键思路

该论文提出了两个关键创新点：（1）在线策略查询，避免种子数据中的OOD和不平衡问题；（2）主动学习，选择最具信息量的数据进行偏好查询。使用这些方法，可以训练一个评估模型，仅使用极少量的专家标记数据，就可以有效地标记更多的偏好对，以进行RLHF训练。
其它亮点

该论文的实验结果表明，使用直接偏好优化（DPO）的模型在AlpacaEval2、MMLU-5shot和MMLU-0shot上平均提高了超过1％，仅使用1.7K查询成本。该方法可以与其他基于直接专家查询的策略相结合，进一步降低查询成本。
相关研究

最近的相关研究包括使用人类反馈进行强化学习的工作，以及使用主动学习或其他代理奖励方法进行强化学习的工作。

Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning

评论