Course-Correction: Safety Alignment Using Synthetic Preferences

Rongwu Xu ,
Yishuo Cai ,
Zhenhong Zhou ,
Renjie Gu ,
Haiqin Weng ,
Yan Liu ,
Tianwei Zhang ,
Wei Xu ,
Han Qiu
68
热度
2024年07月23日
  • 简介
    本文介绍了一项系统性研究,评估和提高大型语言模型(LLM)执行“修正”任务的能力,即模型可以自主地避免生成有害内容。为此,我们首先引入了C2-Eval基准来进行定量评估,并分析了10个流行的LLM,揭示了当前安全调整的LLM在修正方面的不同熟练程度。为了改进,我们提出了用偏好学习微调LLM,强调及时修正的偏好。使用自动化流水线,我们创建了一个合成数据集C2-Syn,其中包含75万个成对偏好,通过数据驱动的偏好学习来教授模型及时修正的概念。对两个LLM,Llama2-Chat 7B和Qwen2 7B的实验表明,我们的方法有效地增强了修正技能,而不影响总体性能。此外,它有效地提高了LLM的安全性,特别是在抵抗越狱攻击方面。
  • 图表
  • 解决问题
    本文旨在系统研究评估和提高大型语言模型(LLMs)在自主进行错误修正任务中的能力,以应对LLMs生成有害内容的风险。
  • 关键思路
    本文提出使用偏好学习对LLMs进行微调,强调及时进行错误修正的偏好,从而提高LLMs的错误修正技能。
  • 其它亮点
    本文引入了C$^2$-Eval基准进行量化评估,并分析了10个流行的LLMs的能力。通过创建C$^2$-Syn合成数据集,使用自动化流程对LLMs进行微调,实现了有效提高错误修正技能的目的。实验结果表明,该方法有效提高了LLMs的安全性能,并且不影响其一般性能。
  • 相关研究
    最近的相关研究包括《GPT-3的安全性评估》、《大规模语言模型的隐私和安全问题》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论