ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models

2024年06月28日
  • 简介
    工具增强的大型语言模型(LLM)正在迅速地被整合到现实世界的应用中。由于缺乏基准测试,社区仍需充分了解这些模型内部的幻觉问题。为了解决这一挑战,我们引入了一个全面的诊断基准测试——ToolBH。具体来说,我们通过深度和广度两个方面来评估LLM的幻觉问题。在深度方面,我们提出了一个多层次的诊断过程,包括(1)可解性检测,(2)解决方案规划和(3)缺失工具分析。在广度方面,我们根据工具集的特点考虑了三种情况:缺少必要的工具、潜在的工具和功能有限的工具。此外,我们开发了七个任务,并通过多轮手动注释收集了700个评估样本。结果表明,ToolBH基准测试带来了重大的挑战。目前先进的模型Gemini-1.5-Pro和GPT-4o在100分的评分尺度上只分别获得了45.3分和37.0分。在这个基准测试中,更大的模型参数并不保证更好的性能;训练数据和响应策略在工具增强的LLM场景中也起着至关重要的作用。我们的诊断分析表明,模型错误的主要原因在于评估任务的可解性。此外,开放式权重模型在冗长的回复中表现下降,而专有模型在更长的推理中表现出色。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决工具增强型大型语言模型中存在的幻觉问题,并提出了一个全面的诊断基准工具ToolBH。
  • 关键思路
    该论文通过深度和广度两个方面来评估LLM的幻觉,并提出了多层次的诊断过程和三种特征的情景来评估LLM的幻觉。作者开发了七个任务,收集了700个评估样本,并发现模型错误的主要原因在于评估任务的可解性。
  • 其它亮点
    该论文的实验结果表明,ToolBH基准测试具有显著的挑战性。作者还发现,更大的模型参数并不保证更好的性能,训练数据和响应策略也起着关键作用。此外,作者还发现开放权重模型在冗长的回复中表现下降,而专有模型在更长的推理中表现出色。
  • 相关研究
    近期的相关研究包括使用大型语言模型进行自然语言生成的研究,以及基于深度学习的自然语言处理技术的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问