StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models

2024年03月12日
  • 简介
    最近几年,大型语言模型(LLMs)取得了显著进展,促使人们探索将LLMs与外部工具集成以解决各种现实挑战的工具学习。评估LLMs利用工具的能力需要大规模且稳定的基准测试。然而,以往的研究要么依赖于手工制作的在线工具,规模有限,要么依赖于大规模的真实在线API,但API状态不稳定。为了解决这个问题,我们介绍了StableToolBench,这是一个从ToolBench演变而来的基准测试,提出了一个虚拟API服务器和稳定的评估系统。虚拟API服务器包含缓存系统和API模拟器,它们是互补的,以减轻API状态的变化。同时,稳定的评估系统使用GPT-4作为自动评估器,设计可解决的通过率和胜率,以消除评估过程中的随机性。实验结果表明了StableToolBench的稳定性,并进一步讨论了API模拟器、缓存系统和评估器系统的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决利用外部工具与大型语言模型(LLMs)相结合的工具学习问题,提出了一个稳定的评估系统StableToolBench,以解决以往评估系统中API状态不稳定的问题。
  • 关键思路
    StableToolBench提出了一个虚拟API服务器和API模拟器,以及一个稳定的评估系统,通过缓存系统和API模拟器来减轻API状态的变化,并使用GPT-4作为自动评估器来消除评估过程中的随机性。
  • 其它亮点
    论文通过实验验证了StableToolBench的稳定性,并探讨了API模拟器、缓存系统和评估器系统的有效性。实验使用了哪些数据集和开源代码没有提到。
  • 相关研究
    最近的相关研究没有提到。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问