WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia

2024年06月19日
  • 简介
    检索增强生成(RAG)已经成为缓解大型语言模型(LLMs)的限制,例如幻觉和过时信息的有前途的解决方案。然而,尚不清楚LLMs如何处理由不同的增强检索段落引起的知识冲突,特别是当这些段落来自同一来源并具有相同的可信度时。在这项工作中,我们对由维基百科引起的矛盾段落所基于的不同答案的问题的LLM生成答案进行了全面评估,维基百科被广泛认为是大多数LLMs的高质量预训练资源。具体而言,我们引入了WikiContradict,这是一个基准,包含253个高质量的人工注释实例,旨在评估当检索到包含真实世界知识冲突的检索段落时,LLM的性能。我们在不同的问答场景下对各种闭源和开源LLMs进行了基准测试,包括使用单个段落和使用2个矛盾段落的RAG。通过对WikiContradict实例的子集进行严格的人类评估,涉及5个LLMs和超过3,500个判断,我们揭示了这些模型的行为和限制。例如,当提供两个包含相互矛盾事实的段落时,所有模型都难以生成准确反映上下文冲突性质的答案,特别是对于需要推理的隐含冲突。由于人类评估成本高昂,我们还引入了一个自动模型,使用一个强大的开源语言模型估计LLM的性能,达到了0.8的F分数。使用这个自动化指标,我们评估了来自七个LLMs的超过1,500个答案在所有WikiContradict实例中的表现。为了促进未来的工作,我们在https://ibm.biz/wikicontradict上发布了WikiContradict。
  • 图表
  • 解决问题
    论文旨在评估大型语言模型(LLMs)在处理来自同一来源但具有不同增强检索段的知识冲突时的表现,以及提供一个包含253个人工注释实例的基准数据集WikiContradict。
  • 关键思路
    论文通过对五种LLMs进行人工评估和一个自动评估模型的实验,发现当提供两个包含矛盾事实的检索段时,所有模型都难以准确生成反映冲突性质的答案,尤其是对需要推理的隐含冲突。并提出了一个自动评估模型,用于评估LLMs在WikiContradict数据集上的表现。
  • 其它亮点
    论文提出了一个包含253个人工注释实例的基准数据集WikiContradict,用于评估LLMs处理知识冲突的表现。通过对五种LLMs进行人工评估和一个自动评估模型的实验,发现所有模型都难以准确生成反映冲突性质的答案,尤其是对需要推理的隐含冲突。论文还介绍了一个自动评估模型,用于评估LLMs在WikiContradict数据集上的表现,该模型的F-score为0.8。作者还提到了一些未来的研究方向,如如何处理多个检索段的冲突以及如何在其他领域中应用这个数据集。
  • 相关研究
    最近的相关研究包括:1)使用不同的检索策略改进RAG模型的表现,如使用BERT进行检索;2)使用多个检索段来提高模型的表现;3)使用其他数据集来评估LLMs的表现,如NaturalQuestions和TriviaQA。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论