Beyond GPT-5: Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing

向作者提问

NEW

简介

在大规模语言模型（LLM）的发展过程中，如何在性能与效率之间取得平衡是一个核心挑战。GPT-5通过“测试时路由”（test-time routing）的方式应对这一问题，即在推理过程中动态地将查询分配给高效模型或高容量模型。在本研究中，我们提出了Avengers-Pro这一测试时路由框架，能够集成多种不同容量与效率的LLM，为所有性能-效率权衡提供统一的解决方案。Avengers-Pro首先对输入查询进行嵌入和聚类，然后根据性能-效率得分，将每个查询路由到最适合的模型。在6个具有挑战性的基准测试和8个领先的模型（包括GPT-5-medium、Gemini-2.5-pro和Claude-opus-4.1）上的实验结果表明，Avengers-Pro达到了最先进的效果：通过调整性能-效率权衡参数，其平均准确率可以超过最强的单一模型（GPT-5-medium）达7%。此外，它能在平均准确率与最强单一模型相当的情况下，将成本降低27%；并在仅需达到该模型约90%性能的情况下，将成本降低63%。最重要的是，Avengers-Pro实现了帕累托前沿（Pareto frontier），在所有单一模型中，对于任意给定的成本，它都能提供最高的准确率；对于任意给定的准确率，它的成本又是最低的。代码已公开，地址为 https://github.com/ZhangYiqun018/AvengersPro。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文试图解决大语言模型（LLM）在性能与效率之间的权衡问题，即如何在保证模型性能的同时降低计算成本。这是一个当前LLM领域的重要问题，尤其是在实际应用中对资源的敏感性日益提高的背景下。
关键思路

论文提出了一种名为Avengers-Pro的测试时路由框架，通过将输入查询嵌入并聚类，动态地将查询路由到最适合的模型（高效模型或高性能模型），从而在不同性能-效率权衡下提供统一的解决方案。其新意在于通过集成不同容量和效率的LLM，在推理阶段实现动态选择，而非依赖单一模型。
其它亮点

1. Avengers-Pro在6个具有挑战性的基准测试和8个领先的LLM上进行了评估，包括GPT-5-medium、Gemini-2.5-pro和Claude-opus-4.1。 2. 实验结果显示，Avengers-Pro在性能-效率权衡参数调整下，相比最强的单一模型GPT-5-medium，平均准确率提高了7%。 3. 在保持相同准确率的情况下，Avengers-Pro的推理成本降低了27%，甚至在仅需90%性能时，成本降低了63%。 4. Avengers-Pro实现了帕累托前沿（Pareto frontier），即在给定成本下提供最高准确率，或在给定准确率下实现最低成本。 5. 代码已开源（https://github.com/ZhangYiqun018/AvengersPro），有助于后续研究和实际部署。
相关研究

1. Dynamic Sparse Training for deep neural networks 2. Efficient Training of Language Models using Dynamic Routing 3. Adaptive Inference for Deep Learning Models 4. Learning to Route Transformers for Efficient Inference 5. Ensemble Learning with Heterogeneous Models for Improved Accuracy-Efficiency Trade-off

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问