Chain of Thoughtlessness: An Analysis of CoT in Planning

简介

大型语言模型（LLM）在推理问题上的表现通常不会在分布之外推广。先前的研究声称，通过修改提示以包括具有思考链的示例--解决方案过程的演示--可以减轻这种情况，其直觉是可以在上下文中教会LLM解决问题的算法。本文针对Blocksworld中的问题进行了思考链案例研究，Blocksworld是一个经典的规划领域，并检查了两个最先进的LLM在两个方面的性能：提示中给出的示例的普遍性和查询每个提示时所使用的问题的复杂性。虽然我们的问题非常简单，但只有当这些提示对其问题类别非常具体时，我们才发现思考链提示的有意义的性能改进，并且随着查询指定堆栈的大小n超过示例中显示的堆栈大小，这些改进很快就会恶化。我们的结果暗示，与文献中先前的声明相反，CoT的性能改进并不是通过演示学习一般算法程序而产生的，并且取决于精心设计高度问题特定的提示。这突显了思考链的缺点，特别是因为在可能的性能增益和生成具有正确推理追踪的示例所需的人力之间存在明显的权衡。
图表
解决问题

本文旨在探讨如何通过在提示中包含问题求解过程的示例来改善大型语言模型（LLM）在推理问题上的表现，并验证这种方法的可行性和局限性。
关键思路

本文通过在提示中添加问题求解过程的示例来提高大型语言模型在推理问题上的表现，但是只有当提示与问题类别高度相关时，才能获得显著的性能提升，这一方法的可行性取决于精心设计高度问题特定的提示。
其它亮点

本文通过对Blocksworld问题领域的案例研究，探讨了在提示中添加问题求解过程示例的方法对两种最先进的LLMs在不同提示和问题复杂度下的表现影响。实验结果表明，只有当提示与问题类别高度相关时，才能获得显著的性能提升。此外，本文还揭示了CoT方法的缺点，即在性能提升和生成正确推理示例所需的人力成本之间存在尖锐的权衡。
相关研究

在该领域的相关研究包括：《Learning to Reason with Third-Order Tensor Products》、《Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding》等。

Chain of Thoughtlessness: An Analysis of CoT in Planning

评论