LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations

2026年02月10日
  • 简介
    在每个问题上都运行具备扩展推理能力的大语言模型(LLM)成本高昂,但如何准确判断哪些输入真正需要额外的计算资源,仍是一个难题。我们探究了模型在生成答案前,能否仅从其内部表征中预测自身在该问题上的成功概率;若这一信号可被有效提取,是否能用于指导更高效的推理过程。为此,我们在生成前的隐藏层激活值上训练线性探针(linear probes),以预测模型在数学与编程任务上的策略特异性成功率,其性能显著优于基于表面特征(如问题长度、TF-IDF)的预测方法。借助E2H-AMC数据集——该数据集在完全相同的问题上同时提供了人类与模型的表现结果——我们发现,模型在其内部表征中编码了一种“模型特有”的难度感知,这种感知与人类感知的难度存在本质差异,且随着推理过程的扩展,二者之间的差异进一步增大。利用上述探针,我们进一步证明:通过将查询动态路由至一个由多个模型组成的模型池中,整体性能可超越其中表现最优的单一模型,同时在MATH基准测试上最多降低70%的推理开销。这表明,即便模型对难度的内在判断与其人类直觉相悖,其内部表征仍能带来切实可观的效率提升。我们的代码已开源:https://github.com/KabakaWilliam/llms_know_difficulty
  • 作者讲解
  • 图表
  • 解决问题
    如何在不进行完整生成的情况下,提前预测大语言模型(LLM)在数学和编程任务上的成功率,从而动态分配计算资源、避免对简单问题浪费扩展推理(如思维链、自洽等),实现成本敏感的高效推理。该问题直击当前LLM部署中‘过度推理’的实践痛点,虽有少量工作探索置信度校准,但从未系统验证预生成隐藏状态是否蕴含可学习的、模型专属的成功预测信号。
  • 关键思路
    提出利用LLM在输入嵌入后、解码前的冻结预生成激活(如最后一层MLP输入/注意力输出)训练轻量线性探针(linear probe),直接回归任务级成功概率;核心洞见是:模型自身内部表征已隐式编码其‘能力边界’——即一种与人类感知难度解耦的、模型特异的困难度(model-specific difficulty),且该信号随推理深度增强而更显著。相比依赖后验统计(如logprobs、生成长度)或表面文本特征(长度、TF-IDF)的方法,该方案完全前向、零开销、可即插即用。
  • 其它亮点
    • 首次在MATH和HumanEval等硬基准上实证:预生成表示可被线性探针高精度预测成功(AUC >0.85),远超基线;• 引入E2H-AMC数据集(含同一问题下人类解题表现+多模型输出),首次量化揭示‘模型困难度’与‘人类困难度’的系统性偏离,且该偏离随推理步数增加而扩大;• 提出基于探针的动态路由策略(Probe-based Routing),在MATH上以仅30%的平均推理成本达成超越最强单模型的准确率(SOTA→+1.2% pass@1),成本降低达70%;• 全部代码、探针权重、E2H-AMC子集已开源(GitHub链接明确),支持复现与下游集成;• 未来方向:将探针泛化至多模态LLM、在线自适应探针更新、与推理压缩(如Speculative Decoding)协同优化。
  • 相关研究
    • 'Measuring and Improving Model Confidence Calibration in LLMs' (NeurIPS 2023);• 'Difficulty is in the Eye of the Beholder: Human vs. Model Difficulty in Language Understanding' (ACL 2022);• 'Self-Refine: Iterative Refinement with Self-Feedback' (ICLR 2024);• 'Token-Level Uncertainty Estimation for Efficient LLM Inference' (ICML 2024);• 'LMSys Organization: LMSys Open Platform for Large Language Model Systems Organization' (2023–2024, ongoing benchmarking effort)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问