PKU-SafeRLHF: A Safety Alignment Preference Dataset for Llama Family Models

2024年06月20日
  • 简介
    本文介绍了PKU-SafeRLHF数据集,旨在促进大型语言模型(LLMs)中安全对齐研究。作为SafeRLHF和BeaverTails的姊妹项目,我们对问答对的有益性和无害性进行了分离注释,提供了这些耦合属性的不同视角。总体而言,我们提供了44.6k个精细的提示和265k个问题-答案对,其中包括19个有害类别和三个严重程度级别(从轻微到严重)的安全元标签,答案由Llama-family模型生成。基于此,我们收集了166.8k个偏好数据,包括双重偏好(有益性和无害性解耦)和单一偏好数据(从头开始权衡有益性和无害性)。利用大规模的注释数据,我们进一步训练了针对LLMs的严重程度敏感的风险控制的调节和以安全为中心的RLHF算法,以实现LLMs的安全对齐。我们相信这个数据集将成为社区的宝贵资源,有助于LLMs的安全部署。
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型(LLMs)安全对齐的问题,为此设计了PKU-SafeRLHF数据集。
  • 关键思路
    论文提出了基于安全元标签的RLHF算法和严重程度敏感的风险控制方法,用于提高LLMs的安全性。
  • 其它亮点
    论文提供了44.6k个精细的提示和265k个带有安全元标签的问题-答案对,涵盖了19个有害类别和三个严重程度级别。作者还收集了166.8k个偏好数据,并使用这些数据训练了安全中心的RLHF算法和严重程度敏感的风险控制方法。
  • 相关研究
    在相关研究方面,近期的相关研究包括《SafeLife: Aligning Language Model Incentives with Human Values》和《Towards Safe Reinforcement Learning via Human Intervention: A Safety-Critical RL Benchmark》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论