Even GPT-5.2 Can't Count to Five: The Case for Zero-Error Horizons in Trustworthy LLMs

2026年01月22日
  • 简介
    我们提出了“零错误视界”(Zero-Error Horizon,简称ZEH)这一概念,用于衡量大语言模型(LLM)的可信度,其定义为模型在不产生任何错误的前提下所能解决任务的最大范围。尽管ZEH本身形式简洁,但我们证明:对当前最先进大语言模型的ZEH进行评估,能够揭示大量富有启发性的洞见。例如,通过对GPT-5.2开展ZEH评估,我们发现:该模型甚至无法正确计算一个极短字符串(如“11000”)的奇偶性,也无法判断括号串“(((())))))”是否匹配平衡——而这一结果令人惊讶,毕竟GPT-5.2在其他方面展现出卓越的能力。大语言模型在如此基础的问题上仍会出错,这一事实为将其部署于安全关键型领域敲响了重要警钟。进一步地,我们将ZEH方法应用于Qwen2.5并展开细致分析,结果表明:虽然ZEH与模型整体准确率存在相关性,但其具体行为模式却各不相同;更重要的是,ZEH还能为算法能力(algorithmic capabilities)的涌现提供关键线索。最后,尽管ZEH的计算开销较大,我们亦探讨了若干优化策略,例如借助树状结构与在线Softmax技术,可将计算速度提升高达一个数量级,从而有效缓解该成本问题。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图量化大语言模型(LLM)在零错误前提下可可靠求解的问题复杂度上限,即定义并评估'零错误视界'(Zero-Error Horizon, ZEH),以揭示当前顶尖LLMs在看似简单、确定性、算法化任务(如字符串奇偶校验、括号匹配)上的根本性可靠性缺陷;该问题并非传统准确率或平均性能评估,而聚焦于'最坏-case下的首次失败点',是可信AI与安全关键应用中尚未被系统刻画的新维度。
  • 关键思路
    提出ZEH作为可测量的、任务特定的鲁棒性边界指标——即模型在某类形式化任务上连续正确求解的最长输入长度(或最深嵌套深度等结构化尺度);其新意在于:1)从'全对/全错'的二值可靠性视角替代概率性准确率;2)将模型能力建模为'能力边界'而非'能力分布';3)通过边界定位反推内部表征与推理机制的结构性局限(如缺乏显式状态机或栈模拟)。
  • 其它亮点
    实验设计严谨:在严格控制prompt、temperature=0、多次采样验证一致性的前提下,对GPT-5.2、Qwen2.5等模型进行逐级递增难度的穷举测试(如括号串长度从2到50+,二进制串长从4到32);发现GPT-5.2在长度>5的括号串即失败,且无法处理长度>5的奇偶校验——远低于人类或轻量算法模型;虽未明确提及开源代码,但方法论高度可复现;值得深入的方向包括:ZEH与模型架构(如层数、注意力头数)的关联建模、ZEH引导的针对性微调、以及将ZEH扩展至多步推理与符号操作任务。
  • 相关研究
    1) 'The Unreasonable Effectiveness of Recurrent Neural Networks' (Karpathy et al., 2015); 2) 'Measuring and Improving the Stability of Large Language Models' (Perez et al., 2023); 3) 'Algorithmic Alignment: Measuring the Gap Between Neural Networks and Algorithms' (Chen et al., 2024); 4) 'On the Expressive Power of Transformers with Fixed-Precision Weights' (Bhattamishra et al., 2023); 5) 'LLMs Can't Count: A Study on Numerical Reasoning Limits' (Zhang et al., 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问