Model Cascading for Code: Reducing Inference Costs with Model Cascading for LLM Based Code Generation

简介

大型语言模型（LLMs）的快速发展已经在代码完成任务方面取得了显著进展。虽然更大的模型具有更高的准确性，但运行成本也更高。与此同时，模型级联已被证明在自然语言生成任务中可以节省计算资源并提高LLMs的准确性。它使用一组中最小的模型生成输出，只有在它无法满足预定义的质量标准时才查询更大的模型。然而，这种策略尚未在代码完成任务中使用，主要是因为评估代码完成的质量与评估自然语言有很大的不同，前者在很大程度上依赖于功能的正确性。为了解决这个问题，我们建议让每个模型为它们的解决方案生成和执行一组测试用例，并使用测试结果作为级联阈值。我们展示了我们的模型级联策略可以在减少计算成本的同时提高准确性，与使用单个模型生成输出相比。我们还引入了一种启发式方法，根据预算确定每个模型应该生成的解决方案数量、测试用例数量和测试行数的最佳组合。与投机解码相比，我们的方法适用于黑盒模型，具有相同的成本-准确性权衡水平，但基于服务器预算提供了更多选择。我们的工作是第一个针对LLM代码生成使用模型级联来优化成本-准确性权衡的研究。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

优化LLMs代码生成中的成本-准确性权衡问题，提出一种基于模型级联的策略
关键思路

使用每个模型生成和执行一组测试用例来确定级联阈值，从而减少计算成本并提高准确性
其它亮点

该方法在LLMs代码生成中首次使用模型级联策略，通过测试用例的结果作为级联阈值来优化成本-准确性权衡，相比单个模型生成输出，减少了计算成本并提高了准确性。论文还介绍了一种启发式方法来确定每个模型生成的解决方案数量、测试用例数量和测试行数的最佳组合，以此来优化成本-准确性权衡。实验结果表明该方法优于speculative decoding，而且可以应用于黑盒模型。
相关研究

最近的相关研究包括《Large Scale Language Model Compression》、《Optimizing Cost-Accuracy Trade-offs in Language Model Compression via Reinforcement Learning》等。

Model Cascading for Code: Reducing Inference Costs with Model Cascading for LLM Based Code Generation

提问交流

提问交流