- 简介从偏好反馈中学习已成为提高现代语言模型的生成质量和性能的重要步骤。尽管它被广泛使用,但应用偏好学习的方式却千差万别,使用的数据、学习算法和评估也不同,这使得分解每个方面的影响变得困难。在这项工作中,我们确定了偏好学习的四个核心方面:偏好数据、学习算法、奖励模型和策略训练提示,系统地研究了这些组件对下游模型性能的影响,并提出了强偏好反馈学习的方法。我们的发现表明,所有方面对性能都很重要,更好的偏好数据导致最大的改进,其次是学习算法的选择、改进的奖励模型的使用,最后是使用附加的未标记提示进行策略训练。值得注意的是,在数学和一般领域中,PPO的表现优于DPO,分别高出2.5%和1.2%。高质量的偏好数据可使指令遵循和真实性的改进达到8%。尽管在扩大奖励模型时在数学评估中获得了高达5%的显着收益,但我们惊讶地发现在其他类别中只有微小的改进。我们公开发布了用于训练(https://github.com/hamishivi/EasyLM)和评估(https://github.com/allenai/open-instruct)我们的模型所使用的代码,以及模型和数据集本身(https://huggingface.co/collections/allenai/tulu-v25-suite-66676520fd578080e126f618)。
- 图表
- 解决问题本文旨在探究基于偏好反馈的学习中四个核心方面(偏好数据、学习算法、奖励模型和策略训练提示)对模型性能的影响,并提出了一种强大的学习偏好反馈的方法。
- 关键思路本文通过系统研究四个核心方面的影响,发现优质的偏好数据对性能的改善效果最大,其次是学习算法的选择、改进的奖励模型的使用,最后是使用额外的未标记提示进行策略训练。
- 其它亮点本文公开了用于训练和评估模型的代码和数据集,并提供了模型和数据集本身。实验结果表明,PPO在数学和一般领域中的表现优于DPO。优质的偏好数据可以提高指令遵循和真实性等方面的性能。尽管在扩大奖励模型方面在数学评估方面可以提高达5%,但在其他方面的提高却很小。
- 最近的相关研究包括“Improving Language Generation by Learning from Preferences over Output Sequences”和“Preference-Based Learning for Neural Machine Translation”。
沙发等你来抢
去评论
评论
沙发等你来抢