HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation

2024年06月11日
  • 简介
    大型语言模型(LLMs)显著推动了自然语言处理(NLP)领域的发展,取得了在各种任务上的卓越表现,实现了广泛的现实世界应用。然而,LLMs容易出现幻觉,生成与已有知识相冲突或不忠实于原始来源的内容。现有的幻觉基准主要关注句子或段落级别的幻觉检测,忽略了对话级别的评估、幻觉定位和理由提供。它们也主要针对事实性幻觉,低估了忠实性幻觉,常常依赖于劳动密集或非专业的评估者。为了解决这些限制,我们提出了HalluDial,这是第一个用于自动对话级别幻觉评估的全面大规模基准。HalluDial包括自发和诱导幻觉场景,涵盖事实性和忠实性幻觉。该基准包括4,094个对话,共计146,856个样本。利用HalluDial,我们在信息寻求对话中进行了LLMs幻觉评估能力的全面元评估,并引入了专门的评判语言模型HalluJudge。HalluDial的高数据质量使得HalluJudge在幻觉评估方面实现了优越或竞争性能,有助于自动评估LLMs中的对话级幻觉,并提供有价值的洞见。该数据集和代码可在https://github.com/FlagOpen/HalluDial上获得。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决大型语言模型在对话中出现幻觉的问题,并提出了HalluDial基准来评估幻觉的自动检测能力。这是一个新问题,因为现有的幻觉基准主要集中在句子或段落级别,忽略了对话级别的评估。
  • 关键思路
    该论文提出了HalluDial基准,是第一个综合的大规模对话级别幻觉评估基准,包括自发和诱导幻觉情景,覆盖事实性和忠实度幻觉。通过HalluDial,作者提出了一个专门的判决语言模型HalluJudge,可以自动评估LLMs中的对话级别幻觉。
  • 其它亮点
    该论文的亮点包括:提出了一个新的对话级别幻觉评估基准HalluDial;设计了实验来评估LLMs的幻觉检测能力,并引入了专门的判决语言模型HalluJudge;HalluDial数据集和代码已开源。值得继续深入研究的工作包括如何进一步提高幻觉检测的准确性和广泛性。
  • 相关研究
    最近的相关研究包括:Detecting Hallucinations in Conversational AI (ACL 2021)、Fact or Fiction: Verifying Dialogue Information with Adversarial Multi-task Learning (ACL 2020)、A Survey on Evaluation Methods for Dialogue Systems (IEEE Access 2021)等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问