Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse

向作者提问

NEW

简介

链式思维（CoT）提示已成为与大型语言和多模态模型交互的广泛使用策略。尽管研究表明CoT在许多任务中提高了性能，但确定其有效的场景仍是一项持续的努力。特别是，CoT系统性地降低模型性能的具体情况仍然是一个开放问题。在这篇论文中，我们试图通过借鉴认知心理学的理论，识别出CoT降低性能的任务特征，具体来看以下两种情况：（i）言语思考或深思熟虑对人类表现有害的情况，以及（ii）制约人类表现的因素是否可以推广到语言模型。我们确定了三种这样的情况：隐式统计学习、视觉识别和包含例外的模式分类。在所有这三种设置的广泛实验中，我们发现一系列最先进的模型在使用推理时的性能显著下降（例如，OpenAI o1-preview相比GPT-4o的绝对准确率下降了高达36.3%）。我们还确定了三个满足条件（i）但不满足条件（ii）的任务，并发现在这些任务中，虽然言语思考降低了人类的表现，但CoT保留或提高了模型的性能。总体而言，我们的结果表明，尽管模型的认知过程与人类并不完全平行，但考虑那些思考对人类表现有负面影响的情况可以帮助我们识别出思考对模型产生负面影响的场景。通过将关于人类深思熟虑的文献与CoT评估联系起来，我们提供了一种新的工具，可用于理解提示选择和推理时思考的影响。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

该论文探讨了在哪些任务设置下，链式思维（CoT）会降低大型语言和多模态模型的性能。这是一个相对新颖的问题，因为虽然CoT在许多任务中表现出了改进的效果，但其负面效果的条件尚未完全明确。
关键思路

论文的关键思路是从认知心理学中汲取灵感，分析人类在哪些情况下言语思考或深思熟虑会损害表现，并探讨这些情况是否适用于语言模型。通过这种方式，论文试图识别出CoT可能降低模型性能的任务特征。这种方法为理解模型的推理过程提供了一个新的视角。
其它亮点

论文通过三个具体案例（隐式统计学习、视觉识别和处理包含例外的模式分类）进行了广泛的实验，发现多个最先进的模型在使用CoT时性能显著下降。此外，论文还探讨了满足条件（i）但不满足条件（ii）的三种任务，发现尽管言语思考会降低人类的表现，但CoT对模型的影响不大或有所提升。实验设计严谨，涵盖了多种模型和任务类型，提供了丰富的实证支持。
相关研究

近期在这一领域的一些相关研究包括： 1. 'When Does Instruction Tuning Help? A Comprehensive Study on the Impact of Instruction Tuning on LLMs' - 探讨了指令调优对大模型的影响。 2. 'The Role of Chain-of-Thought Prompting in Few-Shot Learning' - 研究了CoT在小样本学习中的作用。 3. 'Human-like Reasoning in Large Language Models: A Cognitive Science Perspective' - 从认知科学的角度分析了大模型中的类人推理机制。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问