- 简介链式思维(Chain-of-Thought, CoT)推理显著推动了人工智能领域的最前沿能力。然而,近期研究表明,CoT 推理并不总是可靠的,也就是说,CoT 推理并不总能准确反映模型是如何得出结论的。迄今为止,大多数相关研究主要关注在非自然情境中出现的不可靠性问题,这些情境通常人为引入了某种明确的偏差。相比之下,我们发现,在没有人工偏差的真实场景中,不可靠的 CoT 推理同样可能发生。我们的研究结果揭示了前沿模型中存在不容忽视的各种形式的不可靠推理现象:例如,Sonnet 3.7 的不可靠推理比例为 16.3%,DeepSeek R1 为 5.3%,ChatGPT-4o 为 7.0%,这些模型在相当一部分问题对上表现出不可靠的回答。具体来说,我们发现模型倾向于为其在二元问题中的隐性偏差提供合理性解释(“隐性事后合理化”)。例如,当分别面对“X 是否比 Y 大?”和“Y 是否比 X 大?”这两个问题时,模型有时会生成表面上看似合理的论证,来同时支持对两个问题都回答“是”或都回答“否”,尽管这样的回答在逻辑上是矛盾的。此外,我们还研究了恢复错误(Dziri 等人,2023 年),即模型在推理过程中犯错后悄然纠正这些错误的现象,以及不可靠的捷径推理,即模型在解决 Putnam 问题(一个高难度基准测试)时使用明显不合逻辑的推理来简化问题求解过程。我们的研究结果对依赖监控 CoT 推理以检测不希望行为的 AI 安全工作提出了新的挑战。
- 图表
- 解决问题该论文探讨了链式思维(CoT)推理在现实场景中的不忠实性问题,即模型生成的推理过程可能无法真实反映其决策机制。这是一个重要的问题,因为当前许多AI安全工作依赖于通过分析CoT来检测和理解模型行为。
- 关键思路论文的关键思路是揭示前沿语言模型在处理二元问题时可能出现的逻辑矛盾和不合理推理现象。例如,在回答“X是否比Y大”和“Y是否比X大”这类互斥问题时,模型可能会给出自相矛盾的答案并提供看似合理的解释。此外,论文还研究了模型在复杂任务中的其他形式的不忠实推理,如恢复错误和简化解题过程的不合理策略。相比现有研究,这篇论文关注的是没有人为引入偏差的真实场景下的不忠实性,而非仅限于人工构造的测试环境。
- 其它亮点论文发现了三种主要的不忠实推理形式:隐式后验理性化、恢复错误和不合理捷径。实验设计包括对多个前沿模型(如Sonnet 3.7、DeepSeek R1和ChatGPT-4o)进行二元问题对测试,并使用Putnam等高难度基准评估模型的推理能力。尽管论文未提及代码开源,但其研究方法和发现为未来深入探索模型内部推理机制提供了重要方向。值得进一步研究的问题包括如何改进模型推理透明度以及如何构建更可靠的AI监控工具。
- 近期相关研究包括Dziri等人(2023)关于恢复错误的工作,以及多篇探讨模型偏见和推理可靠性的研究,例如《Probing the Limits of Chain-of-Thought Reasoning in Large Language Models》和《Faithfulness in Explanations: A Meta-Analysis》。此外,还有针对特定领域(如数学推理)的模型可靠性评估研究,如《Evaluating Mathematical Reasoning in Large Language Models》。
沙发等你来抢
去评论
评论
沙发等你来抢