Even GPT-5.2 Can't Count to Five: The Case for Zero-Error Horizons in Trustworthy LLMs

向作者提问

NEW

简介

我们提出了“零错误视界”（Zero-Error Horizon，简称ZEH）这一概念，用于衡量大语言模型（LLM）的可信度，其定义为模型在不产生任何错误的前提下所能解决任务的最大范围。尽管ZEH本身形式简洁，但我们证明：对当前最先进大语言模型的ZEH进行评估，能够揭示大量富有启发性的洞见。例如，通过对GPT-5.2开展ZEH评估，我们发现：该模型甚至无法正确计算一个极短字符串（如“11000”）的奇偶性，也无法判断括号串“(((())))))”是否匹配平衡——而这一结果令人惊讶，毕竟GPT-5.2在其他方面展现出卓越的能力。大语言模型在如此基础的问题上仍会出错，这一事实为将其部署于安全关键型领域敲响了重要警钟。进一步地，我们将ZEH方法应用于Qwen2.5并展开细致分析，结果表明：虽然ZEH与模型整体准确率存在相关性，但其具体行为模式却各不相同；更重要的是，ZEH还能为算法能力（algorithmic capabilities）的涌现提供关键线索。最后，尽管ZEH的计算开销较大，我们亦探讨了若干优化策略，例如借助树状结构与在线Softmax技术，可将计算速度提升高达一个数量级，从而有效缓解该成本问题。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图量化大语言模型（LLM）在零错误前提下可可靠求解的问题复杂度上限，即定义并评估'零错误视界'（Zero-Error Horizon, ZEH），以揭示当前顶尖LLMs在看似简单、确定性、算法化任务（如字符串奇偶校验、括号匹配）上的根本性可靠性缺陷；该问题并非传统准确率或平均性能评估，而聚焦于'最坏-case下的首次失败点'，是可信AI与安全关键应用中尚未被系统刻画的新维度。
关键思路

提出ZEH作为可测量的、任务特定的鲁棒性边界指标——即模型在某类形式化任务上连续正确求解的最长输入长度（或最深嵌套深度等结构化尺度）；其新意在于：1）从'全对/全错'的二值可靠性视角替代概率性准确率；2）将模型能力建模为'能力边界'而非'能力分布'；3）通过边界定位反推内部表征与推理机制的结构性局限（如缺乏显式状态机或栈模拟）。
其它亮点

实验设计严谨：在严格控制prompt、temperature=0、多次采样验证一致性的前提下，对GPT-5.2、Qwen2.5等模型进行逐级递增难度的穷举测试（如括号串长度从2到50+，二进制串长从4到32）；发现GPT-5.2在长度>5的括号串即失败，且无法处理长度>5的奇偶校验——远低于人类或轻量算法模型；虽未明确提及开源代码，但方法论高度可复现；值得深入的方向包括：ZEH与模型架构（如层数、注意力头数）的关联建模、ZEH引导的针对性微调、以及将ZEH扩展至多步推理与符号操作任务。
相关研究

1) 'The Unreasonable Effectiveness of Recurrent Neural Networks' (Karpathy et al., 2015); 2) 'Measuring and Improving the Stability of Large Language Models' (Perez et al., 2023); 3) 'Algorithmic Alignment: Measuring the Gap Between Neural Networks and Algorithms' (Chen et al., 2024); 4) 'On the Expressive Power of Transformers with Fixed-Precision Weights' (Bhattamishra et al., 2023); 5) 'LLMs Can't Count: A Study on Numerical Reasoning Limits' (Zhang et al., 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问