ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning

向作者提问

NEW

简介

大规模语言模型（LLMs）在推理方面展现出了卓越的能力，这通过OpenAI-o1和DeepSeek-R1的成功得到了例证。然而，将推理与外部搜索过程相结合仍然是一项挑战，尤其是对于需要多步检索的复杂多跳问题。我们提出了ReSearch，这是一个全新的框架，通过强化学习训练大规模语言模型实现“带搜索的推理”，且无需使用任何关于推理步骤的监督数据。我们的方法将搜索操作视为推理链中的关键组成部分，其中何时以及如何执行搜索由基于文本的思考引导，而搜索结果则反过来影响后续的推理过程。我们在Qwen2.5-7B(-Instruct)和Qwen2.5-32B(-Instruct)模型上训练了ReSearch，并进行了广泛的实验。尽管仅在一个数据集上进行训练，我们的模型在各种基准测试中表现出强大的泛化能力。分析显示，在强化学习过程中，ReSearch能够自然地激发高级推理能力，例如反思和自我修正。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大型语言模型在复杂多跳问题上结合外部搜索进行推理的能力不足的问题，特别是如何动态决定何时以及如何执行搜索操作。这是一个尚未完全解决的问题，具有一定的新颖性。
关键思路

论文提出了一种名为ReSearch的框架，通过强化学习训练LLM将搜索操作融入推理链条中，无需使用监督数据来指导推理步骤。相比现有方法，ReSearch强调了搜索作为推理过程的一部分，并通过文本引导的思考决定搜索策略，从而实现更自然的推理与搜索结合。
其它亮点

实验展示了ReSearch在多个基准测试上的良好泛化能力，尽管仅在一个数据集上进行训练。此外，模型在强化学习过程中表现出高级推理能力，例如反思和自我修正。论文基于Qwen2.5系列模型进行实验，但未明确提及代码是否开源。未来可以进一步研究如何优化搜索策略以及探索更多实际应用场景。
相关研究

近期相关研究包括OpenAI的o1和DeepSeek的R1模型，它们在推理任务上表现出色。其他相关工作包括：1)《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》探讨了检索增强生成；2)《Chain of Thought Prompting Elicits Reasoning in Large Language Models》研究了链式思维提示对推理的影响；3)《Leveraging External Knowledge Sources for Complex Question Answering》讨论了外部知识源在复杂问答中的应用。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问