- 简介检索增强生成(RAG)利用外部知识源来减少事实幻觉,从而使大型语言模型(LLM)的输出有了基础。然而,先前的工作缺乏对不同语言家族的全面评估,这使得评估LLM对外部检索知识错误的鲁棒性具有挑战性。为了克服这一问题,我们建立了NoMIRACL,这是一个人类注释的数据集,用于评估18种类型多样的语言中RAG中LLM的鲁棒性。NoMIRACL包括非相关子集和相关子集。非相关子集中的查询包含被判定为非相关的段落,而相关子集中的查询至少包含一个被判定为相关的段落。我们使用两个指标来衡量LLM的鲁棒性:(i)幻觉率,衡量模型在非相关子集的段落中出现幻觉答案的倾向,以及(ii)错误率,衡量模型识别相关子集中相关段落的不准确性。在我们的工作中,我们测量了各种面向多语言的LLM的鲁棒性,并观察到大多数模型在平衡这两种能力方面都存在困难。像LLAMA-2、Orca-2和FLAN-T5这样的模型在非相关子集上观察到超过88%的幻觉率,而Mistral总体上幻觉较少,但在相关子集上可以达到74.9%的错误率。总体而言,GPT-4被观察到在两个子集上提供了最佳的权衡,这凸显了未来需要改进LLM鲁棒性的工作。
- 图表
- 解决问题本论文旨在解决Retrieval-augmented generation (RAG)模型在使用外部知识源时,减少事实幻觉的问题。同时,为了评估LLM的鲁棒性,特别是在外部检索知识出现错误的情况下,本论文建立了一个人类注释的数据集NoMIRACL。
- 关键思路本论文的解决方案是建立一个人类注释的数据集NoMIRACL,通过两个度量指标(幻觉率和错误率)来评估不同语言家族的LLM模型的鲁棒性。
- 其它亮点本论文的亮点在于建立了一个新的评估数据集NoMIRACL,用于评估LLM模型的鲁棒性。同时,本论文对18种不同类型的语言进行了评估,发现大多数模型很难平衡幻觉率和错误率。最后,GPT-4模型在两个子集上表现最好,但仍需要进一步改进。
- 近年来,还有一些相关研究,例如"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks"和"How Much Knowledge Can You Pack Into the Parameters of a Language Model?"。


提问交流