ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

2025年01月05日
  • 简介
    对多跳工具使用的有效评估对于分析大型语言模型(LLMs)的理解、推理和函数调用能力至关重要。然而,由于缺乏可靠的评估数据集,这一领域的进展受到了阻碍。为了解决这一问题,我们推出了ToolHop,一个包含995个用户查询和3,912个相关工具的数据集,专门设计用于严格评估多跳工具使用。ToolHop通过一种新颖的查询驱动数据构建方法,确保了查询的多样性、有意义的相互依赖性、本地可执行的工具、详细的反馈和可验证的答案,该方法包括工具创建、文档优化和代码生成。我们评估了来自五个模型家族(即LLaMA3.1、Qwen2.5、Gemini1.5、Claude3.5和GPT)的14个LLMs,揭示了在处理多跳工具使用场景中存在的重要挑战。表现最好的模型GPT-4o准确率为49.04%,表明仍有很大的改进空间。进一步的分析显示,不同模型家族在工具使用策略上存在差异,提供了可操作的见解,有助于指导更有效方法的发展。代码和数据可以在https://huggingface.co/datasets/bytedance-research/ToolHop获取。
  • 图表
  • 解决问题
    该论文试图解决大型语言模型(LLMs)在多步工具使用中的评估难题,特别是缺乏可靠的评估数据集的问题。这是一个新的问题领域,因为随着LLMs的能力增强,对其复杂任务处理能力的评估变得愈发重要。
  • 关键思路
    论文的关键思路是创建一个名为ToolHop的数据集,该数据集包含995个用户查询和3,912个相关工具,旨在严格评估LLMs的多步工具使用能力。与现有研究相比,ToolHop确保了查询的多样性、工具之间的有意义依赖关系,并提供了详细的反馈和可验证的答案,这为更准确地评估LLMs的能力提供了新途径。
  • 其它亮点
    论文的亮点包括:1) 提出了ToolHop数据集,其设计考虑了多样性和实用性;2) 对14个来自五个不同家族的LLMs进行了评估,揭示了它们在多步工具使用方面的挑战;3) 发现了不同模型家族在工具使用策略上的差异,为未来的研究提供了指导;4) 数据集和代码已开源,可在Hugging Face上找到,便于后续研究者复现和扩展。
  • 相关研究
    最近在这个领域中,还有其他相关的研究,例如:1)《Evaluating Large Language Models on Complex Reasoning Tasks》探讨了LLMs在复杂推理任务上的表现;2)《Benchmarking Multi-Step Reasoning in LLMs》提出了一个多步骤推理的基准测试;3)《Improving Tool Use in LLMs through Reinforcement Learning》研究了通过强化学习提升LLMs工具使用能力的方法。这些研究共同推动了对LLMs功能理解的进步。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论