- 简介链式思维(CoT)提示已成为与大型语言和多模态模型交互的广泛使用策略。尽管研究表明CoT在许多任务中可以提高性能,但确定其有效性的场景仍是一个持续的努力。特别是,CoT在哪些情况下系统性地降低模型性能仍然是一个开放的问题。在这篇论文中,我们试图通过借鉴认知心理学,识别出CoT降低性能的任务特征,具体来看以下两种情况:(i) 人类在口头思考或深思熟虑时表现受损的情况,以及 (ii) 影响人类表现的约束条件是否适用于语言模型。我们研究了三种这样的情况:隐式统计学习、视觉识别和处理包含例外模式的分类任务。在所有这三种设置的广泛实验中,我们发现一系列最先进的模型在使用推理时的表现显著下降(例如,OpenAI o1-preview相比GPT-4o的绝对准确率下降了高达36.3%)。我们还识别了三个满足条件(i)但不满足条件(ii)的任务,并发现在这些任务中,虽然口头思考会降低人类的表现,但CoT保留或提高了模型的表现。总体而言,我们的结果表明,尽管模型的认知过程与人类的认知过程并不完全平行,但考虑那些思考对人类表现产生负面影响的情况,可以帮助我们识别出思考对模型表现产生负面影响的场景。通过将关于人类深思熟虑的文献与CoT评估联系起来,我们提供了一个新的工具,可用于理解提示选择和推理时思考的影响。
-
- 图表
- 解决问题该论文试图识别在哪些任务特性下,链式思维(CoT)会降低大型语言和多模态模型的性能。这是一个相对新的问题,因为虽然CoT在许多任务中表现出了积极的效果,但其在某些情况下可能对模型性能产生负面影响的具体条件尚不明确。
- 关键思路论文的关键思路是从认知心理学中寻找灵感,特别是关注那些人类在其中过度思考或言语化思考反而损害表现的情境,并探讨这些情境是否同样适用于语言模型。通过这种方式,论文尝试确定CoT可能导致性能下降的任务类型,为理解和优化模型推理提供了新的视角。
- 其它亮点论文通过广泛的实验验证了三个特定任务类别(隐式统计学习、视觉识别和包含例外的模式分类)中CoT对模型性能的负面影响,发现了一些显著的性能下降案例。此外,论文还探讨了三个仅满足条件(i)而不满足条件(ii)的任务,即虽然人类在这类任务中过度思考会损害表现,但模型使用CoT时仍能保持或提高性能。这些发现不仅有助于理解模型的推理机制,也为未来的研究提供了方向。
- 近期在这一领域的一些相关研究包括: 1. 'When Does Instruction Tuning Work Best? A Case Study on the Effectiveness of Chain-of-Thought Prompting' - 这篇论文探讨了不同类型的指令微调对CoT效果的影响。 2. 'Beyond Chain-of-Thought: Prompts as Programs for Compositional Generalization' - 该研究提出了将提示视为程序的方法,以实现更强大的组合泛化能力。 3. 'Human-like Reasoning in Large Language Models: An Empirical Study' - 这篇论文从多个角度评估了大语言模型的人类类推理能力。 4. 'The Role of Explicit and Implicit Learning in Language Model Performance' - 该研究探讨了显性和隐性学习在语言模型中的作用。
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流