Multi-Head RAG: Solving Multi-Aspect Problems with LLMs

简介

Retrieval Augmented Generation（RAG）通过将文档检索到LLM上下文中，提供更准确和相关的响应，增强了大型语言模型（LLM）的能力。现有的RAG解决方案并不关注可能需要获取多个具有实质不同内容的文档的查询。这样的查询经常发生，但是由于这些文档的嵌入可能在嵌入空间中相距甚远，因此很难检索它们。本文介绍了一种新颖的方案——多头RAG（MRAG），旨在通过一个简单而强大的思想来解决这个问题：利用Transformer的多头注意力层的激活作为检索多方面文档的键，而不是解码器层。驱动动机是不同的注意力头可以学习捕捉不同的数据方面。利用相应的激活结果得到表示数据项和查询的各个方面的嵌入，提高了复杂查询的检索准确性。我们提供了评估方法和指标、合成数据集和真实世界用例来展示MRAG的有效性，显示与标准RAG基线相比的相关性提高了20%。MRAG可以与现有的RAG框架和基准测试工具（如RAGAS）以及不同类别的数据存储无缝集成。
图表
解决问题

论文提出了Multi-Head RAG (MRAG)方案，旨在解决现有RAG方案无法有效获取多个内容差异较大的文档的问题。该方案利用Transformer的多头注意力层激活作为检索多方面文档的键，以提高复杂查询的检索准确性。
关键思路

MRAG方案的关键思路是利用Transformer的多头注意力层激活作为检索多方面文档的键，以提高复杂查询的检索准确性。
其它亮点

论文提供了评估方法和指标、合成数据集和真实用例来展示MRAG的有效性，相比标准RAG基线，MRAG的相关性提高了20%。MRAG可以与现有的RAG框架和基准测试工具无缝集成。
相关研究

最近的相关研究包括RAGAS等RAG框架和其他基于检索的语言模型，以及使用注意力机制进行检索的相关研究。

Multi-Head RAG: Solving Multi-Aspect Problems with LLMs

评论