Chain-of-Thought Reasoning Without Prompting

Xuezhi Wang ,
Denny Zhou
2024年02月15日
  • 简介
    我们的研究采用了一种新颖的方法,探究了在不使用提示的情况下,大型语言模型(LLMs)是否能够有效地推理。以往的研究主要集中在特定的提示技术上,如少量或零量的思维链(CoT)提示。虽然这些方法很有效,但往往需要手动进行提示工程。我们的研究采用了一种新颖的方法,即:改变解码过程,从而引出预训练的LLMs中的CoT推理路径。我们的发现表明,有趣的是,CoT推理路径可以通过简单地改变解码过程来引出。我们研究了前k个备选标记,发现这些序列中经常存在CoT路径。这种方法不仅可以避免提示的混淆,而且还可以评估LLMs的内在推理能力。此外,我们观察到,在解码路径中存在CoT与模型解码答案的置信度更高相关。这种置信度度量有效地区分了CoT和非CoT路径。在各种推理基准测试中进行了广泛的实证研究,结果表明,所提出的CoT解码方法明显优于标准的贪婪解码。
  • 图表
  • 解决问题
    本论文旨在探讨是否可以在不使用提示的情况下,通过改变解码过程从预训练的LLMs中提取CoT推理路径,以评估LLMs的内在推理能力。
  • 关键思路
    通过对LLMs进行top-k替换解码,可以发现CoT路径经常隐含在这些序列中,从而有效地绕过提示的混淆因素,评估LLMs的内在推理能力。此外,CoT路径的存在与模型解码答案的置信度相关。
  • 其它亮点
    论文通过实验设计和多个推理基准测试表明,所提出的CoT-decoding明显优于标准贪婪解码。
  • 相关研究
    之前的研究主要集中在特定提示技术的研究,如few-shot或zero-shot CoT提示。最近的相关研究包括《Few-shot Learning with Graph Neural Networks》和《Zero-shot Learning with Semantic Output Codes》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论