How faithful are RAG models? Quantifying the tug-of-war between RAG and LLMs' internal prior

向作者提问

NEW

简介

检索增强生成（RAG）通常用于修正幻觉和为大型语言模型（LLM）提供最新知识。然而，在LLM单独回答问题时回答错误的情况下，提供正确的检索内容总能纠正错误吗？相反，在检索内容错误的情况下，LLM是否知道忽略错误信息，还是会重复错误？为了回答这些问题，我们系统地分析了LLM的内部知识（即其先验）和检索信息在它们产生分歧的情况下的博弈。我们在具有和不具有参考文献的数据集上测试了GPT-4和其他LLM的问答能力。如预期的那样，提供正确的检索信息可以纠正大多数模型错误（94％的准确率）。然而，当参考文献受到越来越多的错误值的干扰时，当LLM的内部先验较弱时，它更有可能重复错误的修改信息，但当其先验较强时，它更加抵抗。同样，我们还发现，修改信息与模型先验知识的偏差越大，模型越不可能偏向它。这些结果突显了模型先验知识和参考文献中呈现的信息之间的潜在紧张关系。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

分析当大型语言模型与检索到的信息不一致时，提供正确的检索内容是否总能修正错误？反之，当检索到的内容错误时，模型是否知道忽略错误信息，还是会重复错误？
关键思路

通过对GPT-4和其他大型语言模型在有或没有参考文献的数据集上进行问答实验，系统地分析了模型内部知识（即先验）和检索信息之间的博弈。结果显示，提供正确的检索信息可以修正大部分模型的错误，但当参考文献被扰动时，模型更可能重复错误信息，尤其是当其先验知识较弱时。同时，模型越偏离先验知识，就越不可能选择它。
其它亮点

实验中使用了GPT-4和其他大型语言模型，对有或没有参考文献的数据集进行问答实验。结果显示，提供正确的检索信息可以修正大部分模型的错误。但当参考文献被扰动时，模型更可能重复错误信息，尤其是当其先验知识较弱时。同时，模型越偏离先验知识，就越不可能选择它。
相关研究

近期相关研究包括《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》、《Improving Retrieval-Augmented Generation with Frequency-Based Negative Sampling》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问