DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents

向作者提问

NEW

简介

近期，扩散式大语言模型（dLLMs）凭借其天然的并行解码机制与灵活的生成范式，展现出独特的效率优势。与此同时，尽管搜索智能体（Search Agents）发展迅速，其实际部署却受到一项根本性限制的制约，即：1）延迟挑战（Latency Challenge）——在ReAct智能体范式下，多轮推理、工具调用及等待工具响应等环节必须串行执行，导致端到端延迟极为显著。直观来看，dLLMs可充分发挥其独特优势，优化ReAct范式下智能体的整体运行效率。然而在实践中，现有dLLM主干模型面临第2）项挑战，即“智能体能力挑战（Agent Ability Challenge）”：当前dLLMs在推理能力与工具调用能力方面表现极为薄弱，致使前述效率优势难以在实际任务中有效落地。本文提出DLLM-Searcher，一种面向基于dLLM的搜索智能体的系统性优化框架。为应对“智能体能力挑战”，我们设计了一套两阶段后训练流程，包括“智能体导向的监督微调（Agentic SFT）”与“智能体导向的方差缩减型偏好优化（Agentic VRPO）”，从而全面提升主干dLLM在信息检索与逻辑推理方面的核心能力。为缓解“延迟挑战”，我们充分利用dLLMs灵活的生成机制，提出一种全新的智能体范式——“并行推理与执行”（Parallel-Reasoning and Acting，简称P-ReAct）。P-ReAct引导模型优先解码tool_call指令，使其能在等待工具返回结果的同时持续进行推理思考。实验结果表明，DLLM-Searcher的整体性能可媲美主流基于大语言模型（LLM）的搜索智能体；而P-ReAct范式则实现了约15%的推理加速。我们的代码已开源，地址为：https://anonymous.4open.science/r/DLLM-Searcher-553C
作者讲解·1
- 讲解视频(1)
- 相关报道
图表
解决问题

论文旨在解决搜索智能体（Search Agents）在ReAct范式下因串行执行推理、工具调用与等待响应而导致的严重端到端延迟（Latency Challenge），以及当前扩散大语言模型（dLLMs）虽具并行解码优势却严重缺乏推理与工具调用能力（Agent Ability Challenge）这两大制约实际部署的核心问题。该问题具有新颖性：首次系统识别并联合优化dLLMs在智能体场景下的‘能力-效率’双重瓶颈，而非孤立改进模型或代理架构。
关键思路

提出DLLM-Searcher框架，核心创新在于双轨协同设计：1）通过两阶段后训练（Agentic SFT + Agentic VRPO）显式注入信息检索、多步推理与结构化工具调用能力，弥补dLLM的代理短板；2）提出P-ReAct新代理范式，利用dLLM固有的灵活生成机制，让模型在等待工具响应时并行生成后续推理步骤或多个tool_call，变‘阻塞等待’为‘重叠计算’，实现真正意义上的并行推理与行动。
其它亮点

实验在标准搜索代理基准（如WebShop、ALFWorld、ToolBench子集）上验证，DLLM-Searcher性能媲美主流LLM基线（如Llama-3-70B+ReAct），P-ReAct带来约15%端到端推理加速；代码已开源（匿名链接）；VRPO中引入方差缩减机制提升偏好优化稳定性是方法亮点；未来可深入研究dLLM在长链工具工作流中的置信度建模与动态并行度调度。
相关研究

Diffusion Language Models Are Not All You Need (ICLR 2024); ReAct: Synergizing Reasoning and Acting in Language Models (ICLR 2023); ToolFormer: Language Models Can Teach Themselves to Use Tools (arXiv 2023); LLM-based Search Agents: A Survey of Architecture and Evaluation (ACL 2024); Parallel Decoding for Diffusion Models via Latent Space Sampling (NeurIPS 2023)

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问