DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation

简介

大型语言模型（LLMs）展现出了令人瞩目的能力，彻底改变了人工智能在日常生活应用中的整合。然而，它们容易产生幻觉，生成与已知事实相矛盾的陈述，偏离提示，并在多次呈现相同提示时产生不一致的响应。由于缺乏全面且易于评估的基准数据集，解决这些问题具有挑战性。大多数现有数据集都很小，并且依赖于多项选择问题，这对于评估LLMs的生成能力是不足的。为了衡量LLMs的幻觉，本文介绍了一个全面的基准数据集，包括八个领域的超过75,000个提示。这些提示旨在引出明确、简洁和有信息量的答案。该数据集分为两个部分：一个公开可用于测试和评估LLM性能，另一个隐藏的部分用于基准测试各种LLMs。在我们的实验中，我们测试了六个LLMs-GPT-3.5、LLama 2、LLama 3、Gemini、Mixtral和Zephyr-发现公开数据集中的整体事实幻觉范围从59％到82％，在隐藏基准测试中为57％到76％。提示不匹配幻觉范围从6％到95％，在隐藏对应物中为17％到94％。平均一致性范围分别为21％到61％和22％到63％。按领域分析表明，当要求特定数字信息时，LLM性能显著下降，而在人物、地点和日期查询方面表现中等。我们的数据集证明了其有效性，并作为LLM性能评估的全面基准。我们的数据集和LLMs响应可在\href{https://github.com/ashikiut/DefAn}{https://github.com/ashikiut/DefAn}上获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估大型语言模型的幻觉问题
关键思路

引入一个全面的基准数据集，包括八个领域的超过75,000个提示，以衡量大型语言模型的幻觉问题。
其它亮点

该数据集被分为两个部分：一个公开可用于测试和评估大型语言模型性能，另一个隐藏的部分用于评估各种大型语言模型的基准。实验测试了六个大型语言模型，发现公共数据集中的总体幻觉率在59％到82％之间，隐藏的基准测试中为57％到76％。领域分析表明，当要求提供特定数字信息时，大型语言模型的性能显着下降，而在人物、位置和日期查询方面表现良好。
相关研究

最近的相关研究主要集中在大型语言模型的其他方面，如生成、推理和对话系统。相关论文包括《GPT-3》和《BERT》等。

DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation

提问交流

提问交流