Are More LLM Calls All You Need? Towards Scaling Laws of Compound Inference Systems

2024年03月04日
  • 简介
    最近在语言任务中取得的许多最新技术成果都是通过使用复合系统实现的,这些系统执行多个大型语言模型(LLM)调用并聚合它们的响应。然而,对于这种复合系统的性能,即LLM调用的数量(例如,当要求LLM多次回答每个问题并取得共识时)如何影响其性能,我们知之甚少。本文开始研究复合推理系统的扩展规律。我们从理论和实证方面分析了一个简单的复合系统——一层投票推理系统的LLM调用数量如何影响其性能。该系统通过多数投票聚合LLM的响应。我们的实证结果表明,在多个语言任务中,投票推理系统的性能随着LLM调用次数的增加而先增加后降低,这一结果令人惊讶。我们的理论结果表明,这种非单调性是由任务内查询难度的多样性造成的:更多的LLM调用会提高“易”查询的性能,但会降低“难”查询的性能,当任务包含这两种类型的查询时,就会出现非单调行为。这一见解使我们能够从少量样本中计算出最大化系统性能的LLM调用次数,并定义投票推理系统的扩展规律。实验表明,我们的扩展规律可以预测投票推理系统的性能,并找到最佳的LLM调用次数。
  • 图表
  • 解决问题
    本论文旨在研究复合推理系统的缩放规律,即如何调整LLM调用次数以提高系统性能。具体而言,研究了一层投票推理系统在不同LLM调用次数下的性能表现。
  • 关键思路
    通过理论和实证分析,发现投票推理系统的性能随LLM调用次数的增加先上升后下降,这是由于任务内查询难度的多样性造成的。进一步提出了一种缩放规律,可以预测投票推理系统的性能并找到最佳的LLM调用次数。
  • 其它亮点
    论文的实验使用了多个语言任务数据集,并提出了一种新的缩放规律,可以在少量样本下预测最佳LLM调用次数。该论文的研究结果对于提高复合推理系统的性能具有指导意义。
  • 相关研究
    在最近的相关研究中,也有一些关注于调整LLM调用次数的工作,例如《Scaling Laws for Neural Language Models》和《Measuring the Reliability of Hate Speech Annotations: The Case of the European Refugee Crisis》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论