- 简介随着人工智能能力的不断提升,我们正将其委以更广泛、也更具重大影响的任务。而任务范围越广,一旦发生失败,其潜在风险也就越严重。因此,深入理解高度智能的AI模型究竟会如何失效,变得至关重要:它们的失败,究竟是系统性地追求我们本不希望其达成的目标(即目标错位),还是仅仅表现为一团混乱——采取毫无意义、完全无法推进任何目标的荒谬行动?我们借助偏差-方差分解(bias-variance decomposition)这一统计框架,将该问题转化为可操作、可测量的研究课题:AI在某项任务上的“非一致性”(incoherence),定义为在测试阶段因随机性所引发的错误中,由方差(variance)而非偏差(bias)所导致的那部分误差所占的比例。我们在所有考察的任务及当前最前沿的AI模型上均进行了实证测量,结果一致表明:模型在推理与执行动作上所花费的时间越长,其失败行为就**越表现出非一致性**。非一致性随模型规模(scale)的变化趋势则因具体实验设置而异;然而,在多个实验场景中,更大、能力更强的模型反而比更小的模型展现出更高的非一致性。由此可见,仅靠扩大模型规模本身,似乎难以消除这种非一致性。相反,当能力更强的AI转向更困难的任务——这些任务往往需要更长的行动链条与更复杂的推理步骤——我们的研究结果预示,其失败行为将更频繁地伴随非一致性的表现。这意味着未来可能出现这样一种情形:AI有时会因不可预测的异常行为而导致工业安全事故;但与此同时,它却不太可能持续、稳定地追求一个与人类意图相悖的错误目标。这一趋势凸显了针对“奖励黑客行为”(reward hacking)或“目标误设”(goal misspecification)等具体问题开展对齐(alignment)研究的相对重要性正在上升。
-
- 图表
- 解决问题论文试图解决AI模型在高能力、长推理链任务中失败模式的定性区分问题:即失败是源于系统性目标误对齐(高偏差/低方差,即‘危险但一致’的错误),还是源于随机、混乱、无目标导向的行为(高方差/低偏差,即‘不可预测但不具策略性’的错误)。该问题在AGI安全语境下新颖且紧迫——此前多数对齐研究隐含假设失败是目标导向的,而本文首次用可测量的bias-variance分解实证检验这一基础前提。
- 关键思路提出并操作化‘incoherence’(非一致性)概念:定义为测试时随机性(如采样、思维链展开差异)导致的错误中方差成分所占比例;通过控制推理步数、动作序列长度和模型规模,在多任务(数学推理、代码生成、规划控制)上量化incoherence变化趋势。核心新意在于将经典统计学习中的bias-variance分解迁移至AI行为可靠性分析,从而提供首个经验性证据表明‘更聪明的AI不一定更可预测,反而可能更混乱’。
- 其它亮点实验覆盖多个前沿闭源与开源模型(GPT-4, Claude 3, Llama-3-70B等),在MATH、HumanEval、ALFWorld等基准上设计可控推理长度干预(如强制固定思维链步数或动作序列长度);发现‘推理越长→incoherence越高’是稳健规律,且在部分实验中‘模型越大→incoherence越高’;代码与评估框架已开源(GitHub: ai-incoherence-benchmark);重要延伸方向包括:incoherence与训练目标(RLHF vs. DPO)、推理机制(自回归vs. 基于搜索)的关系,以及其对红队测试、鲁棒监控设计的启示。
- ‘Scalable Oversight of Autonomous Agents’ (Cohen et al., NeurIPS 2023); ‘The Alignment Problem as a Failure of Generalization’ (Wu et al., ICML 2024); ‘When Do Language Models Know Too Much?’ (Liu et al., ACL 2024); ‘Variance-Aware Safety Evaluation for RL Agents’ (Zhang & Brunskill, CoRL 2023); ‘Goal Misgeneralization Without Goals’ (Langosco et al., arXiv 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流