StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models

简介

最近几年，大型语言模型（LLMs）取得了显著进展，促使人们探索将LLMs与外部工具集成以解决各种现实挑战的工具学习。评估LLMs利用工具的能力需要大规模且稳定的基准测试。然而，以往的研究要么依赖于手工制作的在线工具，规模有限，要么依赖于大规模的真实在线API，但API状态不稳定。为了解决这个问题，我们介绍了StableToolBench，这是一个从ToolBench演变而来的基准测试，提出了一个虚拟API服务器和稳定的评估系统。虚拟API服务器包含缓存系统和API模拟器，它们是互补的，以减轻API状态的变化。同时，稳定的评估系统使用GPT-4作为自动评估器，设计可解决的通过率和胜率，以消除评估过程中的随机性。实验结果表明了StableToolBench的稳定性，并进一步讨论了API模拟器、缓存系统和评估器系统的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决利用外部工具与大型语言模型（LLMs）相结合的工具学习问题，提出了一个稳定的评估系统StableToolBench，以解决以往评估系统中API状态不稳定的问题。
关键思路

StableToolBench提出了一个虚拟API服务器和API模拟器，以及一个稳定的评估系统，通过缓存系统和API模拟器来减轻API状态的变化，并使用GPT-4作为自动评估器来消除评估过程中的随机性。
其它亮点

论文通过实验验证了StableToolBench的稳定性，并探讨了API模拟器、缓存系统和评估器系统的有效性。实验使用了哪些数据集和开源代码没有提到。
相关研究

最近的相关研究没有提到。

StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models

提问交流

提问交流