Course-Correction: Safety Alignment Using Synthetic Preferences

简介

本文介绍了一项系统性研究，评估和提高大型语言模型（LLM）执行“修正”任务的能力，即模型可以自主地避免生成有害内容。为此，我们首先引入了C2-Eval基准来进行定量评估，并分析了10个流行的LLM，揭示了当前安全调整的LLM在修正方面的不同熟练程度。为了改进，我们提出了用偏好学习微调LLM，强调及时修正的偏好。使用自动化流水线，我们创建了一个合成数据集C2-Syn，其中包含75万个成对偏好，通过数据驱动的偏好学习来教授模型及时修正的概念。对两个LLM，Llama2-Chat 7B和Qwen2 7B的实验表明，我们的方法有效地增强了修正技能，而不影响总体性能。此外，它有效地提高了LLM的安全性，特别是在抵抗越狱攻击方面。
图表
解决问题

本文旨在系统研究评估和提高大型语言模型（LLMs）在自主进行错误修正任务中的能力，以应对LLMs生成有害内容的风险。
关键思路

本文提出使用偏好学习对LLMs进行微调，强调及时进行错误修正的偏好，从而提高LLMs的错误修正技能。
其它亮点

本文引入了C$^2$-Eval基准进行量化评估，并分析了10个流行的LLMs的能力。通过创建C$^2$-Syn合成数据集，使用自动化流程对LLMs进行微调，实现了有效提高错误修正技能的目的。实验结果表明，该方法有效提高了LLMs的安全性能，并且不影响其一般性能。
相关研究

最近的相关研究包括《GPT-3的安全性评估》、《大规模语言模型的隐私和安全问题》等。

Course-Correction: Safety Alignment Using Synthetic Preferences

评论