On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks

简介

对于大型语言模型（LLMs）的推理能力，存在着相当大的分歧。虽然最初的乐观主义认为，随着规模的扩大，推理可能会自动出现，但由于一系列反例（从乘法到简单规划），这种想法已经被削弱。尽管如此，人们普遍认为LLMs可以自我批判并以迭代方式改进自己的解决方案。这种信念似乎基于这样一个假设：验证正确性应该比生成更容易——这是一个相当经典的计算复杂性论证——对于LLMs来说应该是无关紧要的，因为它们所做的是近似检索。在本文中，我们着手系统地研究了迭代提示在推理和规划背景下的有效性。我们针对三个领域（24点游戏、图形着色和STRIPS规划）对GPT-4的表现进行了有原则的实证研究。我们尝试了模型对自己答案的批判以及外部正确推理者验证所提出的解决方案。在每种情况下，我们分析了批评的内容是否实际影响到底线表现，以及是否可以去除增强系统的元素而不失去性能。我们观察到，自我批判会导致显著的性能下降，而通过可靠的外部验证可以获得显著的性能提升，但批评的内容对系统的性能并没有影响。事实上，仅仅是用一个可靠的验证器重新提示就可以保持更复杂设置的大部分优势。
图表
解决问题

研究大型语言模型（LLMs）在推理和规划方面的能力，特别是在自我批判和外部验证的情况下的效果如何。
关键思路

通过对GPT-4在三个领域（24点游戏、图形着色和STRIPS规划）的实验，发现自我批判会导致性能下降，而外部验证可以显著提高性能。此外，重复提示也可以维持大部分外部验证的好处。
其它亮点

实验结果表明，LLMs在推理和规划方面的表现有限，需要外部验证来提高性能。此外，重复提示可以维持大部分外部验证的好处，而无需进行更复杂的设置。
相关研究

与本文相关的研究包括：《Scaling Laws for Neural Language Models》、《The Curious Case of Neural Text Degeneration》、《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》等。

On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks

提问交流

提问交流