Inference Scaling for Long-Context Retrieval Augmented Generation

简介

推断计算的规模化释放了长上下文大型语言模型（LLMs）在不同场景下的潜力。对于知识密集型任务，增加计算资源通常被用于引入更多外部知识。然而，若不能有效利用这些知识，仅仅扩展上下文并不能总是提高性能。本文研究了检索增强生成（RAG）中的推断计算规模化，探索了超越简单增加知识量的策略。我们专注于两种推断计算规模化策略：上下文内学习和迭代提示。这些策略提供了额外的灵活性来规模化测试时计算（例如，通过增加检索到的文档或生成步骤），从而增强LLMs有效获取和利用上下文信息的能力。我们探讨了两个关键问题：（1）当经过最佳配置时，RAG性能如何受益于推断计算规模化？（2）通过建模RAG性能和推断参数之间的关系，我们能否预测给定预算的最佳测试时计算分配？我们的观察结果显示，当经过最佳分配时，增加推断计算可以带来近乎线性的RAG性能提升，我们将这种关系描述为RAG的推断计算规模化定律。在此基础上，我们进一步开发了计算分配模型，以估计RAG在不同推断配置下的性能。该模型可以预测不同计算约束下的最佳推断参数，与实验结果密切相关。通过应用这些最佳配置，我们展示了在长上下文LLMs上规模化推断计算可以比标准RAG在基准数据集上取得高达58.9%的性能提升。
图表
解决问题

本文旨在探讨推理计算的规模对于Retrieval-Augmented Generation（RAG）的性能影响，并提出了两种推理扩展策略：上下文学习和迭代提示。同时，本文试图回答两个问题：1.当最优配置时，推理计算的扩展如何提高RAG的性能？2.是否可以通过建立RAG性能和推理参数之间的模型来预测给定预算的最佳测试计算分配？
关键思路

本文提出了Retrieval-Augmented Generation（RAG）的推理扩展策略，包括上下文学习和迭代提示，并建立了计算分配模型来预测最佳推理参数。实验结果表明，当最优配置时，推理计算的扩展可以使RAG性能线性提高。
其它亮点

本文的实验结果显示，当最优配置时，推理计算的扩展可以使RAG性能线性提高，最高可达58.9%。本文提出的计算分配模型可以预测最佳推理参数，与实验结果相符。本文的两种推理扩展策略可以提高RAG的性能，这在知识密集型任务中尤为重要。
相关研究

与本文相关的研究包括：1. Transformer-XL模型的研究；2. 信息检索和文本生成的相关研究。

Inference Scaling for Long-Context Retrieval Augmented Generation

评论