AgentBench: Evaluating LLMs as Agents

X Liu, H Yu, H Zhang, Y Xu, X Lei, H Lai, Y Gu, H Ding, K Men…
[Tsinghua University]

AgentBench: LLM支持agent智能体的能力评估

  • 提出AgentBench,一个多维的基准测试,用于评估大语言模型(LLM)支持agent智能体的能力,目前包含8个不同的环境。
  • 该测试覆盖了操作系统、数据库、知识图谱、数码卡牌游戏、侧向思维谜题、家务管理、网络购物和网页浏览等场景,这些场景系统评估了LLM的核心能力。
  • 在25个不同的LLM上进行了全面评估,包括基于API的商业模型和开源LLM,结果显示顶级商业API型LLM表现强劲,具备处理各种实际任务的强大能力,开源LLM表现明显落后于商业API型LLM。
  • 提供了一个集成的工具包,以插即用的方式自定义AgentBench对任何LLM的评估。

动机:该论文的动机是针对大型语言模型(LLMs)在现实世界中扮演智能代理的能力进行评估,以填补现有评估工具的缺陷。
方法:论文提出了AgentBench,一个多维度的基准评估工具,用于评估LLMs在多轮开放式生成环境中的推理和决策能力。
优势:AgentBench能够评估商业LLMs和开源竞争对手之间的性能差距,为系统化的LLM评估提供了一个组成部分。

AgentBench是一个用于评估LLM作为agent智能体的系统化基准评测工具,突出了商业LLM和开源竞争对手之间的性能差距。

https://arxiv.org/abs/2308.03688


图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除