Reasoning Models Can Be Effective Without Thinking

简介

近期的大语言模型显著提升了推理能力，这主要归功于在生成过程中引入了一个显式的、 lengthy 的思考过程。在本文中，我们质疑这种显式思考是否真的必要。通过使用最先进的 DeepSeek-R1-Distill-Qwen 模型，我们发现，通过简单的提示绕过思考过程（记为 NoThinking），可以取得令人惊讶的效果。在控制生成 token 数量的情况下，NoThinking 在七个具有挑战性的推理数据集上表现优于 Thinking，这些数据集涵盖了数学问题求解、形式化定理证明和编程任务，尤其是在低预算设置下更为明显，例如，在 ACM 23 数据集上，使用 700 个 token 时，NoThinking 的表现为 51.3%，而 Thinking 仅为 28.9%。值得注意的是，随着 pass@k 中 k 值的增加，NoThinking 的性能变得更加具有竞争力。基于这一观察，我们展示了并行扩展方法的有效性，即通过 NoThinking 独立生成 N 个输出，并对它们进行聚合。在聚合过程中，当有适用的任务特定验证器时，我们使用这些验证器；如果没有，则采用简单的最佳选择策略，如基于置信度的选择。我们的方法在延迟相似的情况下优于一系列使用 Thinking 的基线方法，并且在延迟显著更长（最多 9 倍）的情况下与 Thinking 方法表现相当。综上所述，我们的研究促使人们重新思考 lengthy 思考过程的必要性，同时也为在低预算或低延迟条件下通过并行扩展实现强大的推理性能提供了一个具有竞争力的参考。
图表
解决问题

本论文探讨了在低预算或低延迟场景下，显式的思考过程是否为大型语言模型（LLMs）进行复杂推理的必要条件。这是一个值得讨论的问题，因为当前许多模型依赖于显式思考过程来提升推理能力。
关键思路

论文提出了一种名为NoThinking的方法，通过简单的提示直接生成答案，而无需显式的思考步骤。与传统的思考过程相比，这种方法在控制生成令牌数量的情况下表现更优，特别是在数学问题求解、定理证明和编程任务中。此外，论文引入了并行扩展策略，通过生成多个独立输出并结合任务特定验证器或简单选择策略进行聚合，进一步提升了性能。
其它亮点

实验设计涵盖了七个具有挑战性的推理数据集，包括ACM 23等，并展示了NoThinking方法在不同预算下的优越性。值得注意的是，随着评估标准pass@k中的k值增加，NoThinking的竞争力显著增强。尽管未提及代码开源，但研究提出了一个高效且经济的推理框架，适用于资源受限环境。未来可以深入研究如何优化并行扩展策略以及探索更多任务特定的验证器。
相关研究

相关研究包括：1) DeepSpeed团队关于加速LLMs推理的工作；2) Meta的Llama系列模型对思维链提示的研究；3) Google关于PaLM-E的研究，探讨了多模态推理中的思考过程；4) 其他类似工作如Chain-of-Thought Prompting for Zero-Shot Reasoning和Efficient Reasoning with Large Language Models。这些研究共同构成了当前LLMs推理领域的前沿方向。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论