- 简介大规模语言模型(LLMs)的快速多样化 emergence,推动了 LLM 路由器的发展,这些路由器能够将用户查询分配给最适合的模型。然而,现有的 LLM 路由器通常执行单轮的一对一映射(即,孤立地将每个查询分配给单一模型),这限制了它们处理需要多个 LLM 互补优势的复杂任务的能力。在本文中,我们提出了 **Router-R1**,这是一种基于强化学习(RL)的框架,它将多 LLM 的路由与聚合建模为一个顺序决策过程。Router-R1 将路由器本身实例化为一个功能强大的 LLM,利用其推理能力交替执行“思考”动作(内部 deliberation)和“路由”动作(动态模型调用),并将每个响应整合到其不断演化的上下文中。为了指导学习,我们采用了一种轻量级的基于规则的奖励机制,其中包括格式奖励、最终结果奖励以及一种新颖的成本奖励,以优化性能与成本之间的权衡,从而为通过 RL 优化性能-成本权衡开辟了一条路径。Router-R1 仅基于简单的模型描述符进行条件约束,例如定价、延迟和示例性能,从而实现了对未见过的模型选择的强大泛化能力。在七个通用和多跳问答基准上的实验表明,Router-R1 在多个强基线上表现出色,不仅实现了优越的性能,还保持了稳健的泛化能力和成本管理。代码可在 https://github.com/ulab-uiuc/Router-R1 获取。
- 解决问题论文试图解决现有LLM路由器只能进行单轮、一对一查询分配的问题,无法充分利用多个LLM的互补优势来处理复杂任务。这是一个新问题,聚焦于多模型协作和性能-成本权衡优化。
- 关键思路关键思路是提出基于强化学习(RL)的框架Router-R1,将多LLM路由与响应聚合建模为序列决策过程。通过将路由器本身设计为一个具备推理能力的LLM,实现“思考”和“路由”的动态交互,并引入轻量级规则奖励机制以优化性能与成本之间的权衡。相比现有研究,该方法首次尝试利用RL优化多模型协作并考虑经济性。
- 其它亮点论文设计了七个通用及多跳问答基准测试实验,验证了Router-R1在性能、泛化能力和成本控制上的优越性。使用简单模型描述符(如价格、延迟和示例性能)增强了对未见模型选择的适应性。代码已开源至https://github.com/ulab-uiuc/Router-R1,便于后续研究者复现和改进。未来可深入探索更复杂的奖励机制或扩展到其他任务领域。
- 相关研究包括:1) 单轮LLM路由器(如ModelScope、Auto-Prompting),主要关注静态分配策略;2) 多模型协同推理研究(如Chain-of-Thought with Multiple Models, CoT-MM),但未涉及成本优化;3) 强化学习应用于对话系统优化(如Reinforcement Learning for Dialogue Management)。相关论文标题如《Chain of Thought Prompting Elicits Reasoning in Large Language Models》和《AutoPrompt: Exploring the Limits of Prompt-based Model Selection》。
沙发等你来抢
去评论
评论
沙发等你来抢