- 简介随着大型语言模型(LLM)在安全关键应用中的影响日益增加,确保其安全性仍然是一个主要挑战。本文提出了GuardReasoner,这是一种新的LLM保护机制,通过引导保护模型学习推理来实现。具体来说,我们首先创建了包含12.7万个样本和46万个详细推理步骤的GuardReasonerTrain数据集。然后,我们引入了推理监督微调(reasoning SFT),以解锁保护模型的推理能力。此外,我们还提出了困难样本DPO,以进一步增强其推理能力。通过这些方法,GuardReasoner实现了更好的性能、可解释性和泛化能力。广泛的实验和分析表明,在3个保护任务的13个基准测试中,GuardReasoner表现出色。特别值得注意的是,GuardReasoner 8B在平均F1分数上超过了GPT-4o+CoT 5.74%和LLaMA Guard 3 8B 20.84%。我们发布了GuardReasoner不同规模(1B、3B、8B)的训练数据、代码和模型:https://github.com/yueliu1999/GuardReasoner/。
-
- 图表
- 解决问题该论文试图解决大型语言模型(LLM)在安全关键应用中的安全性问题,特别是通过开发一种新的保护机制来确保这些模型的行为符合预期。这是一个重要的问题,因为随着LLM在更多高风险领域的应用,确保其安全性和可靠性变得至关重要。
- 关键思路论文的关键思路是引入GuardReasoner,这是一种通过引导保护模型学习推理能力来增强LLM安全性的方法。具体来说,作者创建了一个名为GuardReasonerTrain的大规模数据集,并引入了推理微调(reasoning SFT)和困难样本DPO(hard sample DPO)技术,以提升保护模型的推理能力和鲁棒性。相比现有方法,这种方法不仅提高了性能,还增强了模型的可解释性和泛化能力。
- 其它亮点论文的亮点包括:1) 创建了包含127K样本和460K推理步骤的大型数据集;2) 引入了推理微调和困难样本DPO技术;3) 在13个基准测试中展示了优越的性能,特别是在F1分数上显著超越了GPT-4o+CoT和LLaMA Guard 3;4) 开源了训练数据、代码和不同规模的模型(1B, 3B, 8B)。未来可以进一步研究如何将这种推理能力扩展到更多类型的LLM和应用场景。
- 最近在这个领域内的相关研究包括:1) 提出使用对抗训练来提高LLM的安全性;2) 探索通过提示工程来引导LLM生成更安全的输出;3) 研究如何通过知识蒸馏来增强小型模型的安全性。一些相关的论文标题包括《Adversarial Training for Safe LLMs》、《Prompt Engineering for Safety in LLMs》和《Knowledge Distillation for Safer Smaller Models》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流