LLMs Encode Their Failures: Predicting Success from Pre-Generation Activations

向作者提问

NEW

简介

在每个问题上都运行具备扩展推理能力的大语言模型（LLM）成本高昂，但如何准确判断哪些输入真正需要额外的计算资源，仍是一个难题。我们探究了模型在生成答案前，能否仅从其内部表征中预测自身在该问题上的成功概率；若这一信号可被有效提取，是否能用于指导更高效的推理过程。为此，我们在生成前的隐藏层激活值上训练线性探针（linear probes），以预测模型在数学与编程任务上的策略特异性成功率，其性能显著优于基于表面特征（如问题长度、TF-IDF）的预测方法。借助E2H-AMC数据集——该数据集在完全相同的问题上同时提供了人类与模型的表现结果——我们发现，模型在其内部表征中编码了一种“模型特有”的难度感知，这种感知与人类感知的难度存在本质差异，且随着推理过程的扩展，二者之间的差异进一步增大。利用上述探针，我们进一步证明：通过将查询动态路由至一个由多个模型组成的模型池中，整体性能可超越其中表现最优的单一模型，同时在MATH基准测试上最多降低70%的推理开销。这表明，即便模型对难度的内在判断与其人类直觉相悖，其内部表征仍能带来切实可观的效率提升。我们的代码已开源：https://github.com/KabakaWilliam/llms_know_difficulty
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在不进行完整生成的情况下，提前预测大语言模型（LLM）在数学和编程任务上的成功率，从而动态分配计算资源、避免对简单问题浪费扩展推理（如思维链、自洽等），实现成本敏感的高效推理。该问题直击当前LLM部署中‘过度推理’的实践痛点，虽有少量工作探索置信度校准，但从未系统验证预生成隐藏状态是否蕴含可学习的、模型专属的成功预测信号。
关键思路

提出利用LLM在输入嵌入后、解码前的冻结预生成激活（如最后一层MLP输入/注意力输出）训练轻量线性探针（linear probe），直接回归任务级成功概率；核心洞见是：模型自身内部表征已隐式编码其‘能力边界’——即一种与人类感知难度解耦的、模型特异的困难度（model-specific difficulty），且该信号随推理深度增强而更显著。相比依赖后验统计（如logprobs、生成长度）或表面文本特征（长度、TF-IDF）的方法，该方案完全前向、零开销、可即插即用。
其它亮点

• 首次在MATH和HumanEval等硬基准上实证：预生成表示可被线性探针高精度预测成功（AUC >0.85），远超基线；• 引入E2H-AMC数据集（含同一问题下人类解题表现+多模型输出），首次量化揭示‘模型困难度’与‘人类困难度’的系统性偏离，且该偏离随推理步数增加而扩大；• 提出基于探针的动态路由策略（Probe-based Routing），在MATH上以仅30%的平均推理成本达成超越最强单模型的准确率（SOTA→+1.2% pass@1），成本降低达70%；• 全部代码、探针权重、E2H-AMC子集已开源（GitHub链接明确），支持复现与下游集成；• 未来方向：将探针泛化至多模态LLM、在线自适应探针更新、与推理压缩（如Speculative Decoding）协同优化。
相关研究

• 'Measuring and Improving Model Confidence Calibration in LLMs' (NeurIPS 2023)；• 'Difficulty is in the Eye of the Beholder: Human vs. Model Difficulty in Language Understanding' (ACL 2022)；• 'Self-Refine: Iterative Refinement with Self-Feedback' (ICLR 2024)；• 'Token-Level Uncertainty Estimation for Efficient LLM Inference' (ICML 2024)；• 'LMSys Organization: LMSys Open Platform for Large Language Model Systems Organization' (2023–2024, ongoing benchmarking effort)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问