AgentBench: Evaluating LLMs as Agents
X Liu, H Yu, H Zhang, Y Xu, X Lei, H Lai, Y Gu, H Ding, K Men…
[Tsinghua University]
AgentBench: LLM支持agent智能体的能力评估
-
提出AgentBench,一个多维的基准测试,用于评估大语言模型(LLM)支持agent智能体的能力,目前包含8个不同的环境。 -
该测试覆盖了操作系统、数据库、知识图谱、数码卡牌游戏、侧向思维谜题、家务管理、网络购物和网页浏览等场景,这些场景系统评估了LLM的核心能力。 -
在25个不同的LLM上进行了全面评估,包括基于API的商业模型和开源LLM,结果显示顶级商业API型LLM表现强劲,具备处理各种实际任务的强大能力,开源LLM表现明显落后于商业API型LLM。 -
提供了一个集成的工具包,以插即用的方式自定义AgentBench对任何LLM的评估。
动机:该论文的动机是针对大型语言模型(LLMs)在现实世界中扮演智能代理的能力进行评估,以填补现有评估工具的缺陷。
方法:论文提出了AgentBench,一个多维度的基准评估工具,用于评估LLMs在多轮开放式生成环境中的推理和决策能力。
优势:AgentBench能够评估商业LLMs和开源竞争对手之间的性能差距,为系统化的LLM评估提供了一个组成部分。
AgentBench是一个用于评估LLM作为agent智能体的系统化基准评测工具,突出了商业LLM和开源竞争对手之间的性能差距。
https://arxiv.org/abs/2308.03688
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢