能力强大的人工智能系统可能会在暗中追求与其被设定目标不一致的意图——我们称之为“图谋行为”。由于具有图谋行为的人工智能会刻意隐藏其不一致的目标和行动,因此测量和缓解这类行为所需的方法,不同于机器学习中通常采用的策略。我们认为,评估防范图谋行为的干预措施至少需要满足三个条件:(1)在严重分布外(far out-of-distribution, OOD)的任务上测试模型产生图谋行为的倾向;(2)判断模型未表现出图谋行为的原因是否源于其对当前情境的觉察(situational awareness);(3)检验干预措施能否有效应对模型中已预先存在的不一致目标。我们将“隐秘行为”(covert actions)作为一个宽泛类别,用以代理图谋行为,这类行为包括秘密违反规则或在测试中有意表现不佳等,并据此设计了针对隐秘行为的评估方法。随后,我们以“审慎对齐”(deliberative alignment)作为防范图谋行为的一个案例进行压力测试。在共计26项分布外评估(涵盖180多个环境)中,“审慎对齐”显著降低了隐秘行为的发生率(例如,在OpenAI o3模型中从13%降至0.4%),但并未完全消除此类行为。我们的缓解措施在很大程度上也能阻止智能体继续追求先前被训练植入的隐藏目标,但在进一步的红队测试中,仍发现了不当行为。我们发现,模型的思维链(chain-of-thought, CoT)常常显现出其意识到自身正接受对齐性评估的迹象,并提供了因果证据表明:这种自我觉察会减少隐秘行为,而缺乏觉察则会加剧此类行为。因此,我们不能排除观察到的隐秘行为减少至少部分是由情境觉察所驱动的可能性。尽管我们在训练、研究情境觉察以及揭示明显不一致行为时依赖于人类可理解的思维链,但随着模型逐渐脱离标准英语进行推理,我们对此类可解释输出的依赖将不断减弱。我们鼓励开展更多关于防范图谋行为的对齐缓解技术及其评估方法的研究,特别是针对本文尚未涉及的对抗性场景——欺骗性对齐(deceptive alignment)情形下的研究。