- 简介检索增强生成(Retrieval augmented generation,RAG)结合了大型语言模型(large language models,LLMs)的生成能力和外部知识源,以提供更准确和最新的响应。最近的RAG进展集中在通过迭代LLM改进或通过LLM的额外指令调整获得自我批评能力来改善检索结果。在这项工作中,我们介绍了Speculative RAG——一个框架,利用一个更大的通用LM,通过较小的、精简的专业LM并行生成多个RAG草稿,以高效地验证这些草稿。每个草稿都是从不同的检索文档子集中生成的,提供了多样化的证据视角,同时减少了每个草稿的输入标记数。这种方法增强了对每个子集的理解,并减轻了长篇上下文中的潜在位置偏差。我们的方法通过将起草工作委托给较小的专业LM,使得更大的通用LM对草稿进行单次验证。广泛的实验表明,Speculative RAG在TriviaQA、MuSiQue、PubHealth和ARC-Challenge基准测试中实现了最先进的性能,特别是在PubHealth上,它将准确性提高了高达12.97%,同时将延迟降低了51%,与传统的RAG系统相比。
- 图表
- 解决问题Speculative RAG:加速和提高检索增强生成的性能
- 关键思路该论文提出了一种Speculative RAG框架,通过利用更大的通用语言模型来验证由较小的专业语言模型并行生成的多个RAG草案,从而加速和提高检索增强生成的性能。
- 其它亮点该框架通过将草案分成不同的子集进行生成,从而提高了每个子集的理解力和减少了潜在的位置偏差。使用了TriviaQA,MuSiQue,PubHealth和ARC-Challenge基准测试,并取得了最新的性能。
- 与之前的RAG方法相比,该方法通过使用更大的通用语言模型来验证专业模型并行生成的多个草案,从而提高了性能和准确性。
沙发等你来抢
去评论
评论
沙发等你来抢