Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning

简介

大规模语言模型（LLMs）的快速多样化 emergence，推动了 LLM 路由器的发展，这些路由器能够将用户查询分配给最适合的模型。然而，现有的 LLM 路由器通常执行单轮的一对一映射（即，孤立地将每个查询分配给单一模型），这限制了它们处理需要多个 LLM 互补优势的复杂任务的能力。在本文中，我们提出了 **Router-R1**，这是一种基于强化学习（RL）的框架，它将多 LLM 的路由与聚合建模为一个顺序决策过程。Router-R1 将路由器本身实例化为一个功能强大的 LLM，利用其推理能力交替执行“思考”动作（内部 deliberation）和“路由”动作（动态模型调用），并将每个响应整合到其不断演化的上下文中。为了指导学习，我们采用了一种轻量级的基于规则的奖励机制，其中包括格式奖励、最终结果奖励以及一种新颖的成本奖励，以优化性能与成本之间的权衡，从而为通过 RL 优化性能-成本权衡开辟了一条路径。Router-R1 仅基于简单的模型描述符进行条件约束，例如定价、延迟和示例性能，从而实现了对未见过的模型选择的强大泛化能力。在七个通用和多跳问答基准上的实验表明，Router-R1 在多个强基线上表现出色，不仅实现了优越的性能，还保持了稳健的泛化能力和成本管理。代码可在 https://github.com/ulab-uiuc/Router-R1 获取。
解决问题

论文试图解决现有LLM路由器只能进行单轮、一对一查询分配的问题，无法充分利用多个LLM的互补优势来处理复杂任务。这是一个新问题，聚焦于多模型协作和性能-成本权衡优化。
关键思路

关键思路是提出基于强化学习（RL）的框架Router-R1，将多LLM路由与响应聚合建模为序列决策过程。通过将路由器本身设计为一个具备推理能力的LLM，实现“思考”和“路由”的动态交互，并引入轻量级规则奖励机制以优化性能与成本之间的权衡。相比现有研究，该方法首次尝试利用RL优化多模型协作并考虑经济性。
其它亮点

论文设计了七个通用及多跳问答基准测试实验，验证了Router-R1在性能、泛化能力和成本控制上的优越性。使用简单模型描述符（如价格、延迟和示例性能）增强了对未见模型选择的适应性。代码已开源至https://github.com/ulab-uiuc/Router-R1，便于后续研究者复现和改进。未来可深入探索更复杂的奖励机制或扩展到其他任务领域。
相关研究

相关研究包括：1) 单轮LLM路由器（如ModelScope、Auto-Prompting），主要关注静态分配策略；2) 多模型协同推理研究（如Chain-of-Thought with Multiple Models, CoT-MM），但未涉及成本优化；3) 强化学习应用于对话系统优化（如Reinforcement Learning for Dialogue Management）。相关论文标题如《Chain of Thought Prompting Elicits Reasoning in Large Language Models》和《AutoPrompt: Exploring the Limits of Prompt-based Model Selection》。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论