- 简介检索增强生成(RAG)有效地减少了大型语言模型(LLM)中的幻觉现象,但仍可能产生不一致或无根据的内容。尽管由于实现简单,LLM-as-a-Judge被广泛用于检测RAG中的幻觉,但它面临两个主要挑战:缺乏全面的评估基准和缺乏领域优化的判断模型。为了解决这些问题,我们引入了**卞安**,一个新颖的框架,包含双语基准数据集和轻量级判断模型。该数据集支持在多个RAG场景中进行严格的评估,而判断模型则从紧凑的开源LLM微调而来。广泛的实验评估表明,在卞安基准上,我们的140亿参数模型在性能上超过了参数规模大五倍以上的基线模型,并且与最先进的闭源LLM相媲美。我们将在不久后发布数据和模型,发布地址为https://github.com/OpenSPG/KAG。
- 图表
- 解决问题该论文试图解决在使用检索增强生成(RAG)时,尽管可以减少大型语言模型(LLMs)的幻觉问题,但仍然可能产生不一致或无支持的内容。特别是针对LLM-as-a-Judge用于检测RAG幻觉时面临的两个主要挑战:缺乏全面的评估基准和领域优化的法官模型。
- 关键思路关键思路是引入一个名为'Bi'an'的新框架,它包含一个双语基准数据集和轻量级法官模型。通过这个框架,研究者能够更严格地评估多种RAG场景,并且法官模型是从紧凑型开源LLMs微调而来,从而提供了一种高效且资源友好的解决方案。这与当前领域的研究相比,不仅填补了评估标准的空白,还提供了可实际应用的小规模模型。
- 其它亮点实验设计上,研究者们开发了一个名为Bi'anBench的数据集,用于跨多个RAG场景进行严格的评估。此外,他们发布的14B参数模型在性能上超过了具有更大参数规模的基础模型,并且能与最先进的封闭源LLMs相媲美。值得注意的是,所有数据和模型都将被公开发布,为后续研究提供了宝贵的资源。值得继续深入的研究方向包括进一步优化法官模型以适应更多特定领域的需求。
- 最近在这个领域中,相关的研究还包括利用对抗性训练来提高LLMs的鲁棒性,以及探索多模态信息对减少幻觉的影响等。例如,《Adversarial Training for Robustness in Large Language Models》和《Multimodal Information Fusion to Mitigate Hallucinations in Generative Models》等论文也探讨了类似的问题。
沙发等你来抢
去评论
评论
沙发等你来抢