- 简介高质量的偏好数据集对于训练奖励模型至关重要,这些模型可以有效地引导大型语言模型(LLMs)生成与人类偏好相一致的高质量响应。随着LLMs变得更强大和更加一致,Open Assistant、HH-RLHF和HelpSteer等开放许可的偏好数据集需要进行更新,以保持对奖励建模的有效性。从GPT-4等专有LLMs中提取偏好数据的方法受到模型提供者对商业使用的限制。为了改进生成的响应和属性标注质量,我们发布了HelpSteer2,这是一个开放许可的偏好数据集(CC-BY-4.0)。使用在HelpSteer2上训练的强大内部基础模型,我们能够在Reward-Bench的主要数据集上实现SOTA得分(92.0%),超过了截至2024年6月12日列出的当前开放和专有模型。值得注意的是,HelpSteer2仅包含一万个响应对,比现有的偏好数据集(例如HH-RLHF)少一个数量级,这使得它对于训练奖励模型非常高效。我们的广泛实验表明,使用HelpSteer2训练的奖励模型可以有效地对齐LLMs。特别是,我们提出了SteerLM 2.0,这是一种模型对齐方法,可以有效地利用我们的奖励模型预测的丰富多属性分数。HelpSteer2可在https://huggingface.co/datasets/nvidia/HelpSteer2上获取,代码可在https://github.com/NVIDIA/NeMo-Aligner上获取。
- 图表
- 解决问题论文试图通过发布一个新的数据集HelpSteer2,解决训练大型语言模型时高质量偏好数据集的需求。同时,提出了一种有效的模型对齐方法SteerLM 2.0。
- 关键思路论文提出了HelpSteer2数据集,并使用该数据集训练内部基础模型,在Reward-Bench数据集上实现了92.0%的SOTA得分。同时,提出了一种新的模型对齐方法SteerLM 2.0,能够有效利用多属性得分。
- 其它亮点该数据集只包含1万个响应对,比现有数据集数量少一个数量级,训练奖励模型高效。同时,该数据集采用CC-BY-4.0许可证。实验设计考虑充分,对比了开源和专有模型,代码开源。值得进一步研究。
- 与HelpSteer2相关的研究包括Open Assistant和HH-RLHF等。同时,论文提到了使用专有模型生成偏好数据的方法存在商业用途限制。
沙发等你来抢
去评论
评论
沙发等你来抢