- 简介大型语言模型(LLMs)展现出了令人瞩目的能力,彻底改变了人工智能在日常生活应用中的整合。然而,它们容易产生幻觉,生成与已知事实相矛盾的陈述,偏离提示,并在多次呈现相同提示时产生不一致的响应。由于缺乏全面且易于评估的基准数据集,解决这些问题具有挑战性。大多数现有数据集都很小,并且依赖于多项选择问题,这对于评估LLMs的生成能力是不足的。为了衡量LLMs的幻觉,本文介绍了一个全面的基准数据集,包括八个领域的超过75,000个提示。这些提示旨在引出明确、简洁和有信息量的答案。该数据集分为两个部分:一个公开可用于测试和评估LLM性能,另一个隐藏的部分用于基准测试各种LLMs。在我们的实验中,我们测试了六个LLMs-GPT-3.5、LLama 2、LLama 3、Gemini、Mixtral和Zephyr-发现公开数据集中的整体事实幻觉范围从59%到82%,在隐藏基准测试中为57%到76%。提示不匹配幻觉范围从6%到95%,在隐藏对应物中为17%到94%。平均一致性范围分别为21%到61%和22%到63%。按领域分析表明,当要求特定数字信息时,LLM性能显著下降,而在人物、地点和日期查询方面表现中等。我们的数据集证明了其有效性,并作为LLM性能评估的全面基准。我们的数据集和LLMs响应可在\href{https://github.com/ashikiut/DefAn}{https://github.com/ashikiut/DefAn}上获取。
-
- 图表
- 解决问题评估大型语言模型的幻觉问题
- 关键思路引入一个全面的基准数据集,包括八个领域的超过75,000个提示,以衡量大型语言模型的幻觉问题。
- 其它亮点该数据集被分为两个部分:一个公开可用于测试和评估大型语言模型性能,另一个隐藏的部分用于评估各种大型语言模型的基准。实验测试了六个大型语言模型,发现公共数据集中的总体幻觉率在59%到82%之间,隐藏的基准测试中为57%到76%。领域分析表明,当要求提供特定数字信息时,大型语言模型的性能显着下降,而在人物、位置和日期查询方面表现良好。
- 最近的相关研究主要集中在大型语言模型的其他方面,如生成、推理和对话系统。相关论文包括《GPT-3》和《BERT》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流