- 简介高效获取外部知识和最新信息,对于大型语言模型(LLMs)在推理和文本生成中的有效性至关重要。在推理过程中,通过提示具备推理能力的高级LLMs使用搜索引擎并非最佳方案,因为LLM并未学习如何与搜索引擎进行最优交互。本文介绍了Search-R1,这是DeepSeek-R1模型的一个扩展版本,在该版本中,LLM仅通过强化学习(RL)自主地在分步推理过程中生成(多个)搜索查询,并实时检索信息。Search-R1通过对多轮搜索交互的LLM行为轨迹进行优化,利用检索到的标记掩码以确保强化学习训练的稳定性,并采用基于结果的简单奖励函数。在七个问答数据集上的实验表明,Search-R1相较于强大的基线模型分别提升了26%(Qwen2.5-7B)、21%(Qwen2.5-3B)和10%(LLaMA3.2-3B)的性能。本文进一步提供了关于强化学习优化方法、LLM选择以及检索增强推理中响应长度动态变化的实证见解。代码和模型检查点可在https://github.com/PeterGriffinJin/Search-R1 获取。
- 图表
- 解决问题论文试图解决大型语言模型(LLM)在推理和文本生成中如何高效获取外部知识和实时信息的问题。传统方法通过提示LLM使用搜索引擎,但这种方法效率低下,因为LLM未学习如何最优地与搜索引擎交互。
- 关键思路关键思路是通过强化学习(RL)训练LLM自主生成多个搜索查询并进行逐步推理,从而优化多轮搜索交互。Search-R1模型扩展了DeepSeek-R1,引入了检索标记屏蔽以稳定RL训练,并采用基于结果的简单奖励函数。这种方法让LLM直接学习与搜索引擎的有效交互方式。
- 其它亮点实验在七个问答数据集上验证了Search-R1的效果,结果显示其性能分别比Qwen2.5-7B、Qwen2.5-3B和LLaMA3.2-3B等基线模型提高了26%、21%和10%。此外,论文提供了关于RL优化方法、LLM选择和响应长度动态的实证分析。代码和模型检查点已开源至https://github.com/PeterGriffinJin/Search-R1,为后续研究提供了便利。
- 相关研究包括:1) Retrieval-Augmented Generation (RAG),结合检索和生成的模型;2)《REALM: Retrieval-Augmented Language Model Pre-Training》,探索检索增强预训练的语言模型;3)《RETRIEVER: A Unified Framework for End-to-End Retrieval and Reading Comprehension》,提出端到端检索和阅读理解框架;4)《Learning to Retrieve, Generate, and Refine for Dialogue State Tracking》,将检索与生成应用于对话状态跟踪。这些研究均围绕如何更好地结合检索和生成展开,但Search-R1的独特之处在于完全依赖RL来优化搜索交互过程。
沙发等你来抢
去评论
评论
沙发等你来抢