DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents

2026年02月03日
  • 简介
    近期,扩散式大语言模型(dLLMs)凭借其天然的并行解码机制与灵活的生成范式,展现出独特的效率优势。与此同时,尽管搜索智能体(Search Agents)发展迅速,其实际部署却受到一项根本性限制的制约,即:1)延迟挑战(Latency Challenge)——在ReAct智能体范式下,多轮推理、工具调用及等待工具响应等环节必须串行执行,导致端到端延迟极为显著。直观来看,dLLMs可充分发挥其独特优势,优化ReAct范式下智能体的整体运行效率。然而在实践中,现有dLLM主干模型面临第2)项挑战,即“智能体能力挑战(Agent Ability Challenge)”:当前dLLMs在推理能力与工具调用能力方面表现极为薄弱,致使前述效率优势难以在实际任务中有效落地。本文提出DLLM-Searcher,一种面向基于dLLM的搜索智能体的系统性优化框架。为应对“智能体能力挑战”,我们设计了一套两阶段后训练流程,包括“智能体导向的监督微调(Agentic SFT)”与“智能体导向的方差缩减型偏好优化(Agentic VRPO)”,从而全面提升主干dLLM在信息检索与逻辑推理方面的核心能力。为缓解“延迟挑战”,我们充分利用dLLMs灵活的生成机制,提出一种全新的智能体范式——“并行推理与执行”(Parallel-Reasoning and Acting,简称P-ReAct)。P-ReAct引导模型优先解码tool_call指令,使其能在等待工具返回结果的同时持续进行推理思考。实验结果表明,DLLM-Searcher的整体性能可媲美主流基于大语言模型(LLM)的搜索智能体;而P-ReAct范式则实现了约15%的推理加速。我们的代码已开源,地址为:https://anonymous.4open.science/r/DLLM-Searcher-553C
  • 作者讲解·1
  • 图表
  • 解决问题
    论文旨在解决搜索智能体(Search Agents)在ReAct范式下因串行执行推理、工具调用与等待响应而导致的严重端到端延迟(Latency Challenge),以及当前扩散大语言模型(dLLMs)虽具并行解码优势却严重缺乏推理与工具调用能力(Agent Ability Challenge)这两大制约实际部署的核心问题。该问题具有新颖性:首次系统识别并联合优化dLLMs在智能体场景下的‘能力-效率’双重瓶颈,而非孤立改进模型或代理架构。
  • 关键思路
    提出DLLM-Searcher框架,核心创新在于双轨协同设计:1)通过两阶段后训练(Agentic SFT + Agentic VRPO)显式注入信息检索、多步推理与结构化工具调用能力,弥补dLLM的代理短板;2)提出P-ReAct新代理范式,利用dLLM固有的灵活生成机制,让模型在等待工具响应时并行生成后续推理步骤或多个tool_call,变‘阻塞等待’为‘重叠计算’,实现真正意义上的并行推理与行动。
  • 其它亮点
    实验在标准搜索代理基准(如WebShop、ALFWorld、ToolBench子集)上验证,DLLM-Searcher性能媲美主流LLM基线(如Llama-3-70B+ReAct),P-ReAct带来约15%端到端推理加速;代码已开源(匿名链接);VRPO中引入方差缩减机制提升偏好优化稳定性是方法亮点;未来可深入研究dLLM在长链工具工作流中的置信度建模与动态并行度调度。
  • 相关研究
    Diffusion Language Models Are Not All You Need (ICLR 2024); ReAct: Synergizing Reasoning and Acting in Language Models (ICLR 2023); ToolFormer: Language Models Can Teach Themselves to Use Tools (arXiv 2023); LLM-based Search Agents: A Survey of Architecture and Evaluation (ACL 2024); Parallel Decoding for Diffusion Models via Latent Space Sampling (NeurIPS 2023)
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问