Language Models Resist Alignment

2024年06月10日
  • 简介
    大型语言模型可能会表现出不良行为。最近的努力集中在对齐这些模型以防止有害生成。尽管进行了这些努力,但研究表明,即使进行了良好的对齐过程,也很容易被有意或无意地规避。对齐微调对模型有强大的影响,还是仅仅表面上的呢?在这项工作中,我们通过理论和实证手段回答了这个问题。从经验上讲,我们证明了后对齐模型的弹性,即在进一步微调时,倾向于恢复在预训练阶段形成的行为分布。使用压缩理论,我们正式推导出这种微调过程相对于预训练不成比例地削弱了对齐,可能高达几个数量级。我们进行实验验证,以确认在不同类型和大小的模型中存在弹性。具体而言,我们发现模型性能在恢复到预训练分布之前迅速下降,之后下降速度显著降低。我们进一步揭示,弹性与增加模型大小和扩展预训练数据呈正相关。我们的发现意味着驯服LLM的固有弹性的重要性,从而克服LLM对对齐微调的抵抗。
  • 图表
  • 解决问题
    研究对齐fine-tuning对大型语言模型的影响,是否具有鲁棒性?
  • 关键思路
    该论文通过理论和实证研究,发现对齐fine-tuning过程中存在弹性,即模型倾向于回到预训练阶段的行为分布。使用压缩理论,论文推导出fine-tuning相对于预训练会更大程度地削弱对齐效果。
  • 其它亮点
    实验验证了弹性现象的存在,并发现弹性与模型大小和预训练数据量的增加正相关。
  • 相关研究
    最近的相关研究包括对齐fine-tuning的其他方法,以及对大型语言模型的其他研究,如模型压缩和优化。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论