RelayLLM: Efficient Reasoning via Collaborative Decoding

2026年01月08日
  • 简介
    大语言模型(LLM)在复杂推理任务中常受限于高昂的计算成本和延迟问题,而资源高效的轻量级语言模型(SLM)通常又缺乏足够的推理能力。现有的协作方法(如级联或路由机制)以粗粒度方式运行,将整个查询请求卸载给大语言模型处理,导致当轻量级模型本可完成大部分推理步骤时仍造成显著的计算资源浪费。为解决这一问题,我们提出了RelayLLM,一种通过词元级别协同解码实现高效推理的新颖框架。与传统的路由机制不同,RelayLLM赋予轻量级模型作为主动控制器的能力,使其能够通过一个特殊指令,在仅需生成关键词元时动态调用大语言模型,从而有效地“接力”生成过程。我们设计了一个两阶段训练框架,包含预热阶段和分组相对策略优化(GRPO),以教会模型在独立推理与策略性求助之间取得平衡。在六个基准任务上的实验结果表明,RelayLLM实现了平均49.52%的准确率,有效缩小了两类模型之间的性能差距。值得注意的是,这一性能仅通过在总共生成的词元中调用1.07%的大语言模型即可达成,相比性能相当的随机路由机制,计算成本降低了98.2%。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLM)在复杂推理任务中计算成本高、延迟大的问题,同时克服小型语言模型(SLM)推理能力不足的局限。现有协作方法(如级联或路由)以查询为单位粗粒度地将整个任务交给LLM,导致在SLM本可胜任的情况下仍产生大量不必要的计算开销。这是一个具有现实意义的问题,尤其在部署高效、低成本推理系统时,但并非全新问题。
  • 关键思路
    提出RelayLLM框架,实现细粒度的token级协同解码:让SLM作为主动控制器,在生成过程中仅在遇到关键token时通过特殊指令动态调用LLM,从而‘接力’完成生成。相比传统路由机制,其创新在于将协作从‘查询级’推进到‘token级’,显著提升资源利用率。
  • 其它亮点
    采用两阶段训练策略(预热 + 分组相对策略优化GRPO),使模型学会在自主生成与寻求帮助之间取得平衡。在六个基准测试上平均准确率达49.52%,仅调用LLM处理1.07%的token,相较性能匹配的随机路由器实现98.2%的成本降低。实验设计合理,验证了效率与性能的平衡;亮点在于极低的LLM调用率下仍保持竞争力表现。代码是否开源未在摘要提及,值得后续关注。未来可探索更复杂的触发机制、多层级模型协作及在真实场景中的部署。
  • 相关研究
    1. Efficient LLM Inference via Early Exiting and Speculative Decoding 2. Distilling Step-by-Step: Outperforming Larger Language Models with Less Training Data using Step-Tuned Small Models 3. Cascaded Large Language Models for Sequential Reasoning 4. Selective Context Retrieval for Language Model Routing 5. Small Language Models Can Be Guided to Behave Like Large Ones via Reinforcement Learning 6. Collaborative Inference Between Tiny and Large Language Models for Mobile Edge Computing
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问