ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models

向作者提问

NEW

简介

工具增强的大型语言模型（LLM）正在迅速地被整合到现实世界的应用中。由于缺乏基准测试，社区仍需充分了解这些模型内部的幻觉问题。为了解决这一挑战，我们引入了一个全面的诊断基准测试——ToolBH。具体来说，我们通过深度和广度两个方面来评估LLM的幻觉问题。在深度方面，我们提出了一个多层次的诊断过程，包括（1）可解性检测，（2）解决方案规划和（3）缺失工具分析。在广度方面，我们根据工具集的特点考虑了三种情况：缺少必要的工具、潜在的工具和功能有限的工具。此外，我们开发了七个任务，并通过多轮手动注释收集了700个评估样本。结果表明，ToolBH基准测试带来了重大的挑战。目前先进的模型Gemini-1.5-Pro和GPT-4o在100分的评分尺度上只分别获得了45.3分和37.0分。在这个基准测试中，更大的模型参数并不保证更好的性能；训练数据和响应策略在工具增强的LLM场景中也起着至关重要的作用。我们的诊断分析表明，模型错误的主要原因在于评估任务的可解性。此外，开放式权重模型在冗长的回复中表现下降，而专有模型在更长的推理中表现出色。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决工具增强型大型语言模型中存在的幻觉问题，并提出了一个全面的诊断基准工具ToolBH。
关键思路

该论文通过深度和广度两个方面来评估LLM的幻觉，并提出了多层次的诊断过程和三种特征的情景来评估LLM的幻觉。作者开发了七个任务，收集了700个评估样本，并发现模型错误的主要原因在于评估任务的可解性。
其它亮点

该论文的实验结果表明，ToolBH基准测试具有显著的挑战性。作者还发现，更大的模型参数并不保证更好的性能，训练数据和响应策略也起着关键作用。此外，作者还发现开放权重模型在冗长的回复中表现下降，而专有模型在更长的推理中表现出色。
相关研究

近期的相关研究包括使用大型语言模型进行自然语言生成的研究，以及基于深度学习的自然语言处理技术的研究。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问