- 简介最近,大型语言模型(LLMs)的进步引发了对利用工具辅助LLMs解决现实世界挑战的研究兴趣,这需要对工具使用能力进行全面评估。之前的研究要么集中在基于单个用户提示的无状态Web服务(RESTful API)上进行评估,要么集中在基于非策略对话轨迹上进行评估,而ToolSandbox则包括有状态工具执行、工具之间的隐式状态依赖关系、内置用户模拟器支持策略对话评估以及针对任意轨迹的中间和最终里程碑的动态评估策略。我们展示了开源和专有模型之间存在显著的性能差距,并且像状态依赖、规范化和信息不足这样的复杂任务在ToolSandbox中定义,即使是最有能力的SOTA LLMs也具有挑战性,为工具使用LLM能力提供了全新的见解。ToolSandbox评估框架已在https://github.com/apple/ToolSandbox上发布。
- 图表
- 解决问题评估工具辅助下的大型语言模型(LLMs)在解决实际问题时的能力,包括状态感知工具执行、工具之间的隐含状态依赖、用户模拟器支持下的在线评估等方面。
- 关键思路ToolSandbox评估框架包括动态评估策略和支持状态依赖、规范化和信息不足等复杂任务的评估,揭示了开源和专有模型之间的性能差距。
- 其它亮点ToolSandbox评估框架支持中间和最终里程碑的评估,实验结果表明,即使是最先进的LLMs在处理复杂任务时也存在一定困难。该框架已在GitHub上开源。
- 与本论文相关的研究包括大型语言模型的性能评估、对话系统的评估方法等。
沙发等你来抢
去评论
评论
沙发等你来抢