Enhancing LLM Safety via Constrained Direct Preference Optimization

2024年03月04日
  • 简介
    快速增长的大型语言模型(LLMs)的能力提高了对将AI系统与不同人类偏好对齐的紧迫需求,以同时增强它们的实用性和安全性,尽管这些目标常常存在冲突。为了解决这个重要问题,一种有前途的方法是通过受限制的人类反馈强化学习(RLHF)框架在微调阶段强制执行安全约束。然而,这种方法计算成本高,而且经常不稳定。在这项工作中,我们介绍了Constrained DPO(C-DPO),这是一种新颖的扩展,用于微调LLMs的最近提出的Direct Preference Optimization(DPO)方法,既高效又轻量级。通过集成双梯度下降和DPO,我们的方法在不使用强化学习的情况下确定了几乎最优的有益和无害之间的权衡。在实证方面,我们的方法提供了LLMs的安全保证,这在DPO中是缺失的,同时在相同的安全约束下实现了比最近提出的安全RLHF方法更高的奖励。警告:本文包含可能令人反感或有害的示例数据。
  • 图表
  • 解决问题
    解决问题的问题是如何在fine-tuning LLMs时平衡有用性和安全性,而不使用强化学习,同时保证效率和稳定性。
  • 关键思路
    通过将双重梯度下降和DPO相结合,提出了一种称为C-DPO的方法,以有效且轻量级的方式实现fine-tuning LLMs的安全约束。
  • 其它亮点
    该方法提供了LLMs的安全保障,同时在相同的安全约束下实现了显著更高的奖励,比最近提出的安全RLHF方法更好。
  • 相关研究
    最近的相关研究包括使用强化学习的安全约束fine-tuning方法,例如RLHF方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论