- 简介幻觉对于关键领域中大型语言模型(LLMs)的可靠性构成了重大挑战。最近的基准测试旨在评估LLM在传统NLP任务中的幻觉,例如知识密集型问答(QA)和摘要,但这些测试无法捕捉动态的真实世界中用户-LLM交互的复杂性。为了填补这一空白,我们介绍了HaluEval-Wild,这是第一个专门设计用于评估真实世界中LLM幻觉的基准测试。我们精心收集了来自现有真实世界用户-LLM交互数据集(包括ShareGPT)的具有挑战性的用户查询(经过Alpaca的对抗性过滤),以评估各种LLM的幻觉率。在分析收集的查询时,我们将它们分类为五种不同类型,这使得我们能够对LLM表现出的幻觉类型进行细致的分析,并使用强大的GPT-4模型和检索增强生成(RAG)合成参考答案。我们的基准测试提供了一种新方法,可以增强我们对LLM可靠性的理解和改进,以反映真实世界交互的情况。
- 图表
- 解决问题评估大型语言模型在真实世界中的幻觉表现,以提高其可靠性。
- 关键思路引入 HaluEval-Wild,第一个专门设计评估大型语言模型在真实世界中幻觉表现的基准测试。通过收集具有挑战性的用户查询,将其分类为五种不同类型,使用 GPT-4 模型和检索增强生成(RAG)来合成参考答案,以对各种大型语言模型的幻觉率进行评估。
- 其它亮点论文提出了 HaluEval-Wild 基准测试,可以更好地评估大型语言模型在真实世界中的幻觉表现。该基准测试收集了具有挑战性的用户查询,并将其分类为五种不同类型,使用 GPT-4 模型和检索增强生成(RAG)来合成参考答案。论文还探讨了大型语言模型的幻觉表现的细节和影响因素。
- 最近的相关研究包括:《大型语言模型的幻觉:原因、测量和消除》、《GPT-3 的幻觉:原因、测量和减轻措施》等。
沙发等你来抢
去评论
评论
沙发等你来抢