报告主题:ACL 2025杰出论文解读,概率论视角,重新审视提示策略在LLMs测试时间拓展时的作用

报告日期:08月12日(本周二)10:30-11:30

报告要点:
该论文获ACL 2025 Outstanding Paper Award

Test-Time Scaling(测试时间拓展)近期得到了广泛关注,许多学者研究何种Test-Time Scaling范式是最有效的,然而关于在Test-Time Scaling的背景下何种提示策略最有效的研究却很少。为此,我们在6个大语言模型×8种提示策略×6个数据集上进行了测试,重点围绕最基础的多数投票Test-Time Scaling设置,我们发现,Pass@1 Accuracy高的提示策略在Test-Time Scaling时并不一定始终最优,而在大部分情况下,简单的0-shot CoT会随着Scale逐渐成为最优策略,即使它的Pass@1 Accuracy并不高。

我们从概率理论的角度分析了这一现象的原因。

1. 定义了基于结果概率分布的新的问题难度体系。简单和中等难度问题随着Scale性能单调不减,困难问题则相反。CoT有更多的简单问题和更少的困难问题。

2.CoT的错误答案概率分布更平坦,使其在增加采样次数时,Test-Time Scaling性能提升受到的影响更小,从而提升更快。

上述分析同样适用于多模态模型和任务。

同时也解释了为什么多数投票Test-Time Scaling性能会呈现出上下波动、逐渐增加、逐渐降低、先增后减、先减后增等多种情况。

当Scale程度很大时,测试Test-Time Scaling性能会产生巨量开销,我们希望通过类似Train-Time Scaling Law的方式,通过少量采样预估结果概率分布,以此预测Test-Time Scaling性能。基于我们的理论,我们提出了O(1)复杂度的能够准确预测指定开销下的Test-Time Scaling性能和最佳提示策略的方法。

进一步,基于我们的理论,提出了两种能大幅提升Test-Time Scaling性能的方法:

1.根据我们定义的问题难度自适应拓展。

2.动态选择单个问题的最佳提示策略。

两者结合能更大幅提升Test-Time Scaling性能,例如将LLaMA-3-8B-Instruct在MATH500上的Majority@10 Accuracy从15.2%提升至61.0%。

报告嘉宾:
刘烨翔是中国科学院自动化研究所的博士生,就读于新模式识别实验室,师从谭铁牛院士和赫然研究员,主要研究方向为大语言模型和多模态模型Reasoning,本科毕业于北京理工大学电子信息工程专业,曾连续三次获国家奖学金,获北京理工大学最高荣誉奖学金徐特立奖学金,信息与电子学院金牌毕业生(1/390),多次在各类全国大学生数学竞赛、数学建模竞赛中获得一等奖,一作论文获ACL 2025 Outstanding Paper Award等。

扫码报名


更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除