ROUTERBENCH: A Benchmark for Multi-LLM Routing System

2024年03月18日
  • 简介
    随着大型语言模型(LLMs)应用范围的不断扩大,有效的服务解决方案的需求变得越来越关键。尽管LLMs的多功能性,但没有单个模型能够在平衡性能和成本时最优地解决所有任务和应用,尤其是当涉及到多种任务和应用时。这种限制促使了LLM路由系统的发展,这些系统结合了各种模型的优势,以克服单个LLMs的限制。然而,缺乏一个标准化的基准来评估LLM路由器的性能阻碍了这一领域的进展。为了弥合这一差距,我们提出了ROUTERBENCH,这是一个新颖的评估框架,旨在系统评估LLM路由系统的有效性,以及一个全面的数据集,包括来自代表性LLMs的超过405k个推理结果,以支持路由策略的开发。我们进一步提出了LLM路由的理论框架,并通过ROUTERBENCH进行了各种路由方法的比较分析,突出了它们在我们的评估框架内的潜力和限制。这项工作不仅正式化和推进了LLM路由系统的发展,而且为它们的评估设定了标准,为更易于访问和经济可行的LLM部署铺平了道路。代码和数据可在https://github.com/withmartian/routerbench上获得。
  • 图表
  • 解决问题
    论文旨在解决LLM routing系统中缺乏标准化评估框架的问题,以及如何平衡性能和成本的问题。
  • 关键思路
    提出ROUTERBENCH评估框架,用于系统评估LLM routing系统的效力,并提出理论框架,比较不同的routing方法,并突出它们的潜力和局限性。
  • 其它亮点
    论文提供了一个全面的数据集,包括超过405k个推理结果,以支持routing策略的开发。并且提供了可用于评估和开发routing系统的代码和数据。同时,论文也为LLM routing系统的发展和评估设立了标准,为更容易实现和经济可行的LLM部署铺平了道路。
  • 相关研究
    最近的相关研究主要集中在LLM模型的应用和优化上,例如GPT-3和T5等模型的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论