Model Spec Midtraining: Improving How Alignment Training Generalizes

2026年05月03日
  • 简介
    一些前沿人工智能开发者致力于将语言模型对齐到一份“模型规范”(Model Spec)或“宪法”(Constitution)上,该文件明确描述了模型应有的行为准则。然而,标准的对齐微调方法——即仅基于符合规范行为的示范样本进行训练——往往只能实现表层对齐,其泛化能力较差;部分原因在于,示范数据本身可能无法充分刻画所期望的泛化方向。为此,我们提出“模型规范中期训练”(Model Spec Midtraining,简称MSM):在预训练完成之后、开展对齐微调之前,先让模型学习一批由人工合成的、专门探讨其自身“模型规范”的文档。这一过程旨在使模型真正理解规范的具体内容,从而塑造其后续从示范数据中进行泛化的路径与方式。例如,若仅对模型进行关于奶酪偏好的微调(如“我更喜欢奶油奶酪而非布里奶酪”),它通常难以形成稳定的价值倾向;但若在此前引入MSM,并配以一份将该偏好归因于“亲美价值观”的模型规范,则模型便会显著泛化出广泛支持美国立场的价值取向。反之,若采用另一份将相同奶酪偏好归因于“亲性价比价值观”的模型规范,则模型会从完全相同的奶酪微调数据中泛化出鲜明的亲性价比倾向。MSM还能有效塑造复杂且与安全密切相关的行为倾向:当采用一份涵盖“自我保存”与“目标守护”原则的模型规范实施MSM时,智能体层面的对齐失效率大幅下降(Qwen3-32B模型从54%降至7%),显著优于基于审慎推理的对齐基线方法(14%)。我们还进一步将MSM作为一种研究工具,系统考察不同模型规范对对齐泛化效果的影响,结果发现:若规范不仅列出行为规则,还清晰阐释其背后的价值依据,则泛化效果更优;同样,提供具体、明确的行为指引,也比给出宽泛、抽象的原则更能提升泛化质量。总体而言,MSM是一种简洁而高效的技术,它通过在对齐训练之前率先向模型传授预期的泛化逻辑,从而切实增强并精准调控模型从对齐训练中所习得行为的泛化能力。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决语言模型对齐(alignment)中‘浅层对齐’(shallow alignment)问题:标准基于示范数据的对齐微调(如RLHF或SFT)常因示范数据无法充分刻画目标行为背后的抽象原则(如价值观、动机、宪法精神),导致模型泛化能力差、行为漂移;这不是全新问题,但现有工作缺乏系统性干预模型‘理解规范内涵’的机制。
  • 关键思路
    提出Model Spec Midtraining(MSM):在预训练后、对齐微调前,插入一个中间训练阶段,用合成文本(synthetic documents)让模型学习其Model Spec(即宪法/行为规范)的语义内容(如‘偏好奶油奶酪源于亲美价值观’),从而将Spec内化为认知框架;这不同于现有对齐方法(如Constitutional AI、RLAIF)仅将Spec用于打分或重排序,而是显式建模Spec的解释性逻辑,使后续示范数据在该框架下被重新诠释和泛化。
  • 其它亮点
    实验在Qwen3-32B上验证:MSM将agentic misalignment率从54%降至7%,显著优于deliberative alignment基线(14%);通过控制变量设计(相同奶酪偏好示范数据+不同Spec解释),首次实证证明‘Spec的解释方式’直接决定泛化方向(如pro-America vs. pro-affordability);发现Spec中‘解释底层价值观’比仅列规则更有效,‘具体指引’优于‘抽象原则’;论文未提代码是否开源,但强调方法简单、无需修改架构或训练流程,可即插即用;值得深入的方向包括:MSM对跨领域价值观迁移的影响、Spec语言形式(自然语言vs. structured logic)的鲁棒性、以及与推理时干预(如self-critique)的协同机制。
  • 相关研究
    Constitutional AI: Harmlessness from Self-Critique (Bai et al., 2022); RLHF with Preference Modeling (Ouyang et al., 2022); Direct Preference Optimization (Rafailov et al., 2023); Value Learning via Inverse Reinforcement Learning in LMs (Cohen et al., 2023); Teaching Models to Follow Instructions with Natural Language (Huang et al., 2023); The Alignment Problem as a Generalization Problem (Perez et al., 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问