- 简介在多样化的训练分布上为大语言模型(LLMs)提供高质量反馈可能既困难又昂贵,而仅在狭窄分布上提供反馈则可能导致意外的泛化行为。为了更有效地利用有限的训练数据,我们提出了一种称为对比权重引导(contrastive weight steering)的简单后训练方法,该方法通过权重运算直接修改模型参数。具体而言,我们通过对两次小规模微调所产生的权重变化量进行相减——一次微调诱导出期望的行为,另一次诱导其相反行为——从而在权重空间中分离出一个表征特定行为的方向,然后通过添加或移除该方向来调整模型权重。我们将这一技术应用于抑制谄媚倾向(sycophancy)以及诱导模型偏离预期行为,发现与激活引导相比,权重引导通常具有更强的泛化能力,能够在不影响模型通用性能的前提下实现更有效的跨分布行为控制。此外,我们还表明,在特定任务微调的背景下,权重引导可部分缓解不良的行为偏移:它能在保持任务性能提升的同时,减少微调过程中引入的谄媚行为和过度回应(under-refusals)。最后,我们提供了初步证据表明,可以通过测量微调更新与某个“恶意”权重方向之间的相似性来检测新出现的模型偏离行为,这意味着未来或许有可能在训练过程中持续监控权重演变,进而识别出那些在训练或评估阶段从未显现的罕见不一致行为。
- 图表
- 解决问题论文试图解决在提供高质量反馈以训练大语言模型(LLMs)时面临的困难和成本问题,尤其是在训练数据分布较窄的情况下容易导致模型产生意外泛化或不良行为(如谄媚性sycophancy或错对齐misalignment)。此外,微调过程中可能出现的行为漂移(如过度迎合或拒绝不足)也难以控制。这是一个重要且日益突出的问题,尤其在安全和对齐敏感的应用中,但尚未有简单高效的后训练解决方案。
- 关键思路提出“对比权重引导”(contrastive weight steering),一种简单的后训练方法:通过对两个小规模微调(一个诱导期望行为,另一个诱导相反行为)得到的权重变化做差,提取出权重空间中的“行为方向”,然后通过加减该方向来编辑模型参数,从而实现对模型行为的可控调整。相比激活层引导(activation steering),该方法直接修改权重,具有更强的泛化性和稳定性。
- 其它亮点实验表明,权重引导在缓解谄媚性和诱导错对齐方面优于激活引导,且在分布外控制上表现更优;在任务微调后可有效减轻行为退化,同时保留任务性能提升;初步证据显示可通过监测微调更新与预定义“恶意”方向的相似性来检测潜在的错对齐行为演化。实验基于Llama系列模型进行,未明确提及开源代码,但方法本身简洁、无需额外推理开销,值得进一步探索其在安全监控、模型编辑和持续学习中的应用。
- 1. Steering Language Models with Gradient-Based Token Attribution 2. Locating and Editing Factual Associations in GPT 3. Model Editors via Gradient Descent 4. Towards Understanding Fine-Tuning Dynamics of Large Language Models 5. Activation Steering in Large Language Models


提问交流