Model Spec Midtraining: Improving How Alignment Training Generalizes

向作者提问

NEW

简介

一些前沿人工智能开发者致力于将语言模型对齐到一份“模型规范”（Model Spec）或“宪法”（Constitution）上，该文件明确描述了模型应有的行为准则。然而，标准的对齐微调方法——即仅基于符合规范行为的示范样本进行训练——往往只能实现表层对齐，其泛化能力较差；部分原因在于，示范数据本身可能无法充分刻画所期望的泛化方向。为此，我们提出“模型规范中期训练”（Model Spec Midtraining，简称MSM）：在预训练完成之后、开展对齐微调之前，先让模型学习一批由人工合成的、专门探讨其自身“模型规范”的文档。这一过程旨在使模型真正理解规范的具体内容，从而塑造其后续从示范数据中进行泛化的路径与方式。例如，若仅对模型进行关于奶酪偏好的微调（如“我更喜欢奶油奶酪而非布里奶酪”），它通常难以形成稳定的价值倾向；但若在此前引入MSM，并配以一份将该偏好归因于“亲美价值观”的模型规范，则模型便会显著泛化出广泛支持美国立场的价值取向。反之，若采用另一份将相同奶酪偏好归因于“亲性价比价值观”的模型规范，则模型会从完全相同的奶酪微调数据中泛化出鲜明的亲性价比倾向。MSM还能有效塑造复杂且与安全密切相关的行为倾向：当采用一份涵盖“自我保存”与“目标守护”原则的模型规范实施MSM时，智能体层面的对齐失效率大幅下降（Qwen3-32B模型从54%降至7%），显著优于基于审慎推理的对齐基线方法（14%）。我们还进一步将MSM作为一种研究工具，系统考察不同模型规范对对齐泛化效果的影响，结果发现：若规范不仅列出行为规则，还清晰阐释其背后的价值依据，则泛化效果更优；同样，提供具体、明确的行为指引，也比给出宽泛、抽象的原则更能提升泛化质量。总体而言，MSM是一种简洁而高效的技术，它通过在对齐训练之前率先向模型传授预期的泛化逻辑，从而切实增强并精准调控模型从对齐训练中所习得行为的泛化能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决语言模型对齐（alignment）中‘浅层对齐’（shallow alignment）问题：标准基于示范数据的对齐微调（如RLHF或SFT）常因示范数据无法充分刻画目标行为背后的抽象原则（如价值观、动机、宪法精神），导致模型泛化能力差、行为漂移；这不是全新问题，但现有工作缺乏系统性干预模型‘理解规范内涵’的机制。
关键思路

提出Model Spec Midtraining（MSM）：在预训练后、对齐微调前，插入一个中间训练阶段，用合成文本（synthetic documents）让模型学习其Model Spec（即宪法/行为规范）的语义内容（如‘偏好奶油奶酪源于亲美价值观’），从而将Spec内化为认知框架；这不同于现有对齐方法（如Constitutional AI、RLAIF）仅将Spec用于打分或重排序，而是显式建模Spec的解释性逻辑，使后续示范数据在该框架下被重新诠释和泛化。
其它亮点

实验在Qwen3-32B上验证：MSM将agentic misalignment率从54%降至7%，显著优于deliberative alignment基线（14%）；通过控制变量设计（相同奶酪偏好示范数据+不同Spec解释），首次实证证明‘Spec的解释方式’直接决定泛化方向（如pro-America vs. pro-affordability）；发现Spec中‘解释底层价值观’比仅列规则更有效，‘具体指引’优于‘抽象原则’；论文未提代码是否开源，但强调方法简单、无需修改架构或训练流程，可即插即用；值得深入的方向包括：MSM对跨领域价值观迁移的影响、Spec语言形式（自然语言vs. structured logic）的鲁棒性、以及与推理时干预（如self-critique）的协同机制。
相关研究

Constitutional AI: Harmlessness from Self-Critique (Bai et al., 2022); RLHF with Preference Modeling (Ouyang et al., 2022); Direct Preference Optimization (Rafailov et al., 2023); Value Learning via Inverse Reinforcement Learning in LMs (Cohen et al., 2023); Teaching Models to Follow Instructions with Natural Language (Huang et al., 2023); The Alignment Problem as a Generalization Problem (Perez et al., 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问