Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing

简介

大型语言模型（LLMs）在大多数自然语言处理任务中表现出色，但由于其体积庞大，部署需要昂贵的云服务器，而可以部署在低成本设备上的较小模型在响应质量方面往往落后。因此，在本文中，我们提出了一种混合推理方法，结合它们各自的优点以节省成本并保持质量。我们的方法使用路由器，根据预测的查询难度和所需的质量水平将查询分配给小型或大型模型。所需的质量水平可以在测试时动态调整，以根据场景要求无缝地在质量和成本之间进行交换。在实验中，我们的方法允许我们对大型模型进行多达40％的减少调用，而响应质量不降低。
图表
解决问题

提出一种混合推理方法，将大型语言模型和小型模型的优点相结合，以节省成本并保持质量。
关键思路

使用路由器根据预测的查询难度和所需的质量级别将查询分配给小型或大型模型，可以在测试时动态地调整所需的质量级别以无缝地在成本和质量之间进行权衡。
其它亮点

该方法可以使我们对大型模型进行多达40％的减少调用，而不会降低响应质量。实验设计合理，使用了多个数据集，并且开源了代码。
相关研究

最近的相关研究包括《Efficient Inference for Multiple Non-Parametric Bayesian Models》和《Dynamic Routing Between Capsules》等。