智源TALK | ACL 2025杰出论文解读，概率论视角，重新审视提示策略在LLMs测试时间拓展时的作用

报告主题：ACL 2025杰出论文解读，概率论视角，重新审视提示策略在LLMs测试时间拓展时的作用

报告日期：08月12日（本周二）10:30-11:30

报告要点:

该论文获ACL 2025 Outstanding Paper Award。

Test-Time Scaling（测试时间拓展）近期得到了广泛关注，许多学者研究何种Test-Time Scaling范式是最有效的，然而关于在Test-Time Scaling的背景下何种提示策略最有效的研究却很少。为此，我们在6个大语言模型×8种提示策略×6个数据集上进行了测试，重点围绕最基础的多数投票Test-Time Scaling设置，我们发现，Pass@1 Accuracy高的提示策略在Test-Time Scaling时并不一定始终最优，而在大部分情况下，简单的0-shot CoT会随着Scale逐渐成为最优策略，即使它的Pass@1 Accuracy并不高。

我们从概率理论的角度分析了这一现象的原因。

1. 定义了基于结果概率分布的新的问题难度体系。简单和中等难度问题随着Scale性能单调不减，困难问题则相反。CoT有更多的简单问题和更少的困难问题。

2.CoT的错误答案概率分布更平坦，使其在增加采样次数时，Test-Time Scaling性能提升受到的影响更小，从而提升更快。

上述分析同样适用于多模态模型和任务。

同时也解释了为什么多数投票Test-Time Scaling性能会呈现出上下波动、逐渐增加、逐渐降低、先增后减、先减后增等多种情况。

当Scale程度很大时，测试Test-Time Scaling性能会产生巨量开销，我们希望通过类似Train-Time Scaling Law的方式，通过少量采样预估结果概率分布，以此预测Test-Time Scaling性能。基于我们的理论，我们提出了O(1)复杂度的能够准确预测指定开销下的Test-Time Scaling性能和最佳提示策略的方法。

进一步，基于我们的理论，提出了两种能大幅提升Test-Time Scaling性能的方法：

1.根据我们定义的问题难度自适应拓展。

2.动态选择单个问题的最佳提示策略。

两者结合能更大幅提升Test-Time Scaling性能，例如将LLaMA-3-8B-Instruct在MATH500上的Majority@10 Accuracy从15.2%提升至61.0%。

报告嘉宾：

刘烨翔是中国科学院自动化研究所的博士生，就读于新模式识别实验室，师从谭铁牛院士和赫然研究员，主要研究方向为大语言模型和多模态模型Reasoning，本科毕业于北京理工大学电子信息工程专业，曾连续三次获国家奖学金，获北京理工大学最高荣誉奖学金徐特立奖学金，信息与电子学院金牌毕业生（1/390），多次在各类全国大学生数学竞赛、数学建模竞赛中获得一等奖，一作论文获ACL 2025 Outstanding Paper Award等。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

智源TALK | ACL 2025杰出论文解读，概率论视角，重新审视提示策略在LLMs测试时间拓展时的作用

评论