Reasoning Models Generate Societies of Thought

向作者提问

NEW

简介

大语言模型已在多个领域展现出卓越的能力，但其复杂推理能力背后的机制仍不明确。近期出现的推理模型在复杂的认知任务中表现优于同等规模的指令微调模型，这通常归因于通过更长思维链所实现的扩展计算。本文表明，推理能力的提升并不仅仅源于扩展计算，而关键在于模拟多智能体式的交互——即“思维社会”——这种机制使得内部认知视角之间产生多样化和辩论，这些视角具有不同的人格特质和领域专长。通过对推理轨迹进行定量分析和基于机制的可解释性研究，我们发现，诸如DeepSeek-R1和QwQ-32B等推理模型展现出远超指令微调模型的视角多样性，在推理过程中激活了更多涉及异质人格特征与专业能力之间的冲突。这种多智能体结构体现在对话行为中，包括问答、视角转换以及对矛盾观点的调和，同时也体现在塑造激烈交锋式对话的社会情感角色上，共同促成了推理任务中的准确率优势。通过受控的强化学习实验发现，基础模型在仅因推理准确性获得奖励时，会自发增加对话行为；而使用对话式结构对模型进行微调，则能比基础模型更快地提升推理能力。这些结果表明，思维的社会化组织有助于对解空间进行高效探索。我们提出，推理模型在计算层面实现了人类群体中集体智能的类比：当多样性被系统性地组织起来时，便能实现更优的问题解决能力，这也为通过智能体组织来汇聚群体智慧开辟了新的可能路径。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文试图解决大型语言模型在复杂推理任务中表现优异的背后机制问题，特别是验证‘扩展的思维链’是否是提升推理能力的根本原因。该问题在当前研究中尚未被充分探索，尤其是从认知多样性与多智能体交互的角度理解推理过程是一个较新的方向。
关键思路

论文提出，推理能力的提升并非仅仅来自更长的思维链（即更多计算步骤），而是源于模型内部模拟了类似多智能体的社会化互动——即‘思维社会’（Society of Thought）。在这种结构中，不同的内部认知视角（具有不同人格特质和领域专长）通过辩论与协调达成共识，从而实现更优的问题解决。这一观点将推理建模为一种社会性、对话式的过程，而非单一序列的逻辑推导，相比传统强调长度或格式化的思维链方法具有显著新颖性。
其它亮点

作者通过对DeepSeek-R1和QwQ-32B等推理模型的推理轨迹进行定量分析和机制可解释性研究，发现这些模型在推理过程中激活了更多样化的人格与专业知识特征，并表现出明显的冲突与调和动态。实验设计包括控制性的强化学习训练，结果显示：仅奖励推理准确性即可促使基础模型自发增加对话行为；而使用对话式微调能加速推理能力提升。研究未明确提及开源代码，但使用了标准复杂认知任务作为评估数据集。值得深入的方向包括如何显式建模内部代理角色、构建可控的多视角推理框架，以及将集体智能原理应用于模型设计。
相关研究

1. 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models' (Wei et al., 2022) 2. 'Large Language Models as Optimizers' (Zeng et al., 2023) 3. 'Self-Consistency Improves Chain of Thought Reasoning in Language Models' (Wang et al., 2023) 4. 'Tree of Thoughts: Deliberate Problem Solving with Large Language Models' (Yao et al., 2023) 5. 'Reflexion: Language Agents with Verbal Reinforcement Learning' (Shinn et al., 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问