报告主题:ACL 2025杰出论文解读,概率论视角,重新审视提示策略在LLMs测试时间拓展时的作用
报告日期:08月12日(本周二)10:30-11:30
Test-Time Scaling(测试时间拓展)近期得到了广泛关注,许多学者研究何种Test-Time Scaling范式是最有效的,然而关于在Test-Time Scaling的背景下何种提示策略最有效的研究却很少。为此,我们在6个大语言模型×8种提示策略×6个数据集上进行了测试,重点围绕最基础的多数投票Test-Time Scaling设置,我们发现,Pass@1 Accuracy高的提示策略在Test-Time Scaling时并不一定始终最优,而在大部分情况下,简单的0-shot CoT会随着Scale逐渐成为最优策略,即使它的Pass@1 Accuracy并不高。
我们从概率理论的角度分析了这一现象的原因。
1. 定义了基于结果概率分布的新的问题难度体系。简单和中等难度问题随着Scale性能单调不减,困难问题则相反。CoT有更多的简单问题和更少的困难问题。
2.CoT的错误答案概率分布更平坦,使其在增加采样次数时,Test-Time Scaling性能提升受到的影响更小,从而提升更快。
上述分析同样适用于多模态模型和任务。
同时也解释了为什么多数投票Test-Time Scaling性能会呈现出上下波动、逐渐增加、逐渐降低、先增后减、先减后增等多种情况。
当Scale程度很大时,测试Test-Time Scaling性能会产生巨量开销,我们希望通过类似Train-Time Scaling Law的方式,通过少量采样预估结果概率分布,以此预测Test-Time Scaling性能。基于我们的理论,我们提出了O(1)复杂度的能够准确预测指定开销下的Test-Time Scaling性能和最佳提示策略的方法。
进一步,基于我们的理论,提出了两种能大幅提升Test-Time Scaling性能的方法:
1.根据我们定义的问题难度自适应拓展。
2.动态选择单个问题的最佳提示策略。
两者结合能更大幅提升Test-Time Scaling性能,例如将LLaMA-3-8B-Instruct在MATH500上的Majority@10 Accuracy从15.2%提升至61.0%。

扫码报名
更多热门报告
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢