A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models

简介

作为人工智能中最先进的技术之一，检索增强生成（RAG）可以提供可靠和最新的外部知识，为众多任务提供巨大便利。特别是在人工智能生成内容（AIGC）的时代，检索提供额外知识的强大能力使得RAG能够协助现有的生成型人工智能产生高质量的输出。最近，大型语言模型（LLMs）在语言理解和生成方面展示了革命性的能力，但仍然面临着内部知识虚构和过时的固有限制。鉴于RAG在提供最新和有用的辅助信息方面的强大能力，检索增强大型语言模型（RA-LLMs）已经出现，以利用外部和权威的知识库，而不仅仅是依靠模型的内部知识，来增强LLMs的生成质量。在这项调查中，我们全面审查了RA-LLMs中现有的研究，涵盖了三个主要的技术视角：架构、训练策略和应用。作为初步了解，我们简要介绍了LLMs的基础和最新进展。然后，为了说明RAG对LLMs的实际意义，我们系统地审查了主流相关工作的架构、训练策略和应用领域，具体详细地说明了每个挑战以及RA-LLMs的相应能力。最后，为了提供更深入的见解，我们讨论了当前的限制和未来研究的几个有前途的方向。有关此调查的更新信息可在https://advanced-recommender-systems.github.io/RAG-Meets-LLMs/找到。
图表
解决问题

本论文旨在解决大语言模型（LLMs）内部知识过时和幻觉等固有限制，提出了利用检索增强生成（RAG）来提供最新和有用的外部知识，以增强LLMs生成质量的方案。同时，论文还试图探讨RA-LLMs的架构、训练策略和应用领域等方面的问题。
关键思路

论文提出了利用检索增强生成（RAG）来提供最新和有用的外部知识，以增强LLMs生成质量的方案，即Retrieval-Augmented Large Language Models (RA-LLMs)。RA-LLMs利用外部和权威的知识库来辅助内部知识，提高生成质量。
其它亮点

论文全面综述了RA-LLMs的现有研究，包括架构、训练策略和应用领域等方面。同时，详细介绍了每个方面的挑战和RA-LLMs的相应能力。实验使用了哪些数据集和开源代码也进行了介绍。此外，论文还讨论了当前的局限性和未来研究的方向。
相关研究

最近在这个领域中，还有一些相关的研究，例如《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》、《Improving Large Pretrained Language Models with Retrieval-Augmented Training》等。

A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models

评论