- 简介推断计算的规模化释放了长上下文大型语言模型(LLMs)在不同场景下的潜力。对于知识密集型任务,增加计算资源通常被用于引入更多外部知识。然而,若不能有效利用这些知识,仅仅扩展上下文并不能总是提高性能。本文研究了检索增强生成(RAG)中的推断计算规模化,探索了超越简单增加知识量的策略。我们专注于两种推断计算规模化策略:上下文内学习和迭代提示。这些策略提供了额外的灵活性来规模化测试时计算(例如,通过增加检索到的文档或生成步骤),从而增强LLMs有效获取和利用上下文信息的能力。我们探讨了两个关键问题:(1)当经过最佳配置时,RAG性能如何受益于推断计算规模化?(2)通过建模RAG性能和推断参数之间的关系,我们能否预测给定预算的最佳测试时计算分配?我们的观察结果显示,当经过最佳分配时,增加推断计算可以带来近乎线性的RAG性能提升,我们将这种关系描述为RAG的推断计算规模化定律。在此基础上,我们进一步开发了计算分配模型,以估计RAG在不同推断配置下的性能。该模型可以预测不同计算约束下的最佳推断参数,与实验结果密切相关。通过应用这些最佳配置,我们展示了在长上下文LLMs上规模化推断计算可以比标准RAG在基准数据集上取得高达58.9%的性能提升。
- 图表
- 解决问题本文旨在探讨推理计算的规模对于Retrieval-Augmented Generation(RAG)的性能影响,并提出了两种推理扩展策略:上下文学习和迭代提示。同时,本文试图回答两个问题:1.当最优配置时,推理计算的扩展如何提高RAG的性能?2.是否可以通过建立RAG性能和推理参数之间的模型来预测给定预算的最佳测试计算分配?
- 关键思路本文提出了Retrieval-Augmented Generation(RAG)的推理扩展策略,包括上下文学习和迭代提示,并建立了计算分配模型来预测最佳推理参数。实验结果表明,当最优配置时,推理计算的扩展可以使RAG性能线性提高。
- 其它亮点本文的实验结果显示,当最优配置时,推理计算的扩展可以使RAG性能线性提高,最高可达58.9%。本文提出的计算分配模型可以预测最佳推理参数,与实验结果相符。本文的两种推理扩展策略可以提高RAG的性能,这在知识密集型任务中尤为重要。
- 与本文相关的研究包括:1. Transformer-XL模型的研究;2. 信息检索和文本生成的相关研究。
沙发等你来抢
去评论
评论
沙发等你来抢