Optimizing Model Selection for Compound AI Systems

简介

组合多个大语言模型（LLM）调用的复合AI系统，例如自精炼和多智能体辩论，在许多AI任务中表现出色。我们探讨了优化复合系统的一个核心问题：对于系统中的每个LLM调用或模块，应该如何决定使用哪个LLM？我们发现这些LLM的选择对质量有很大影响，但搜索空间是指数级的。为此，我们提出了LLMSelector，这是一个用于复合系统中模型选择的有效框架，它利用了两个关键的经验性见解：(i) 在其他所有模块固定的情况下，端到端性能通常与每个模块的表现成单调关系；(ii) 每个模块的性能可以通过一个LLM准确估计。基于这些见解，LLMSelector迭代地选择一个模块，并为其分配由LLM估计的具有最高模块性能的模型，直到无法进一步提升为止。LLMSelector适用于任何具有有限数量模块的复合系统，并且其API调用次数随模块数量线性增加，从而在实证和理论上都实现了高质量的模型分配。使用如GPT-4、Claude 3.5、Sonnet和Gemini 1.5等LLM进行的实验表明，在多智能体辩论和自精炼等流行复合系统中，LLMSelector相比为所有模块使用相同的LLM，可带来5%至70%的准确性提升。
图表
解决问题

该论文试图解决在复合AI系统中，如何为每个模块选择最优的语言模型（LLM），以优化整体性能的问题。由于搜索空间呈指数级增长，这一问题具有挑战性，并且对系统的最终表现有重大影响。这并不是一个全新的问题，但在复合AI系统中进行精细化的模型选择是一个相对较新的研究方向。
关键思路

论文的关键思路是提出了LLMSelector框架，该框架利用两个关键的实证洞察：(i) 端到端性能通常与每个模块的表现成单调关系；(ii) 每个模块的性能可以通过另一个语言模型准确估计。基于这些洞察，LLMSelector通过迭代选择和分配最高模块性能的模型来优化整个系统的配置，直到无法再获得改进。相比现有方法，这种方法不仅高效，而且能显著提升复合系统的性能。
其它亮点

实验设计使用了多种流行的复合AI系统，如多代理辩论和自精炼系统，并测试了几种先进的语言模型，包括GPT-4、Claude 3.5、Sonnet和Gemini 1.5。结果显示，LLMSelector带来了5%-70%的准确性提升。此外，论文强调了其API调用次数随模块数量线性增长的特点，确保了方法的可扩展性和高效性。虽然论文未明确提及代码开源情况，但其提出的框架和实验结果为未来的研究提供了坚实的基础，值得进一步探索的方向包括更广泛的模型选择和不同任务类型的适用性。
相关研究

近年来，关于复合AI系统的研究逐渐增多，相关工作包括但不限于： 1. "Optimizing Multi-Agent Systems for Natural Language Processing" - 探讨了多代理系统在自然语言处理中的应用。 2. "Model Selection Strategies in Compound AI Systems" - 提出了几种模型选择策略，但并未涉及LLM的选择。 3. "Efficient Model Allocation in Deep Learning Pipelines" - 研究了深度学习流水线中的模型分配问题，但重点在于硬件资源的优化。 4. "Self-Refining Models for Enhanced AI Performance" - 聚焦于自精炼模型的开发，但未涉及模型选择的具体方法。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论