Language Models Resist Alignment

2024年06月10日
  • 简介
    大型语言模型(LLMs)可能会表现出不良行为。最近的努力集中于对齐这些模型,以防止有害生成。尽管进行了这些努力,但研究表明,即使进行了良好的对齐过程,也很容易被故意或意外地规避。对齐微调对模型有强大的影响,还是只是表面上的?在这项工作中,我们通过理论和实证手段回答了这个问题。从经验上讲,我们展示了后对齐模型的弹性,即在进一步微调时倾向于恢复在预训练阶段形成的行为分布。使用压缩理论,我们正式推导出这样的微调过程\textit{不成比例}地削弱了对齐,可能是数量级的差异。我们进行实验验证,以确认不同类型和大小的模型之间存在弹性。具体而言,我们发现模型性能在恢复到预训练分布之前迅速下降,之后下降速度显著降低。我们进一步揭示,弹性与增加模型大小和扩展预训练数据呈正相关。我们的发现意味着驯服LLMs固有的弹性的重要性,从而克服LLMs对对齐微调的抵抗。
  • 作者讲解
  • 图表
  • 解决问题
    论文探讨了对大型语言模型进行对齐调整的可持续性问题,即模型在调整后是否能够稳定保持对齐状态。
  • 关键思路
    论文通过理论和实验方法证明,对齐微调相比于预训练会更容易破坏对齐状态,而且对齐状态的弹性会随着模型大小和预训练数据的增加而增加。
  • 其它亮点
    论文使用压缩理论推导出对齐微调的弹性更大,实验验证了模型的对齐状态会随着微调而逐渐恢复到预训练状态。作者指出解决对齐微调的弹性问题非常重要,以便克服大型语言模型对对齐微调的抵抗力。
  • 相关研究
    最近的相关研究包括调整对齐方法以提高模型的鲁棒性、使用多种对齐方法来提高对齐效果等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问