AgentBench: LLM支持agent智能体的能力评估

AgentBench: Evaluating LLMs as Agents

X Liu, H Yu, H Zhang, Y Xu, X Lei, H Lai, Y Gu, H Ding, K Men…
[Tsinghua University]

提出AgentBench，一个多维的基准测试，用于评估大语言模型(LLM)支持agent智能体的能力，目前包含8个不同的环境。
该测试覆盖了操作系统、数据库、知识图谱、数码卡牌游戏、侧向思维谜题、家务管理、网络购物和网页浏览等场景，这些场景系统评估了LLM的核心能力。
在25个不同的LLM上进行了全面评估，包括基于API的商业模型和开源LLM，结果显示顶级商业API型LLM表现强劲，具备处理各种实际任务的强大能力，开源LLM表现明显落后于商业API型LLM。
提供了一个集成的工具包，以插即用的方式自定义AgentBench对任何LLM的评估。

动机：该论文的动机是针对大型语言模型（LLMs）在现实世界中扮演智能代理的能力进行评估，以填补现有评估工具的缺陷。
方法：论文提出了AgentBench，一个多维度的基准评估工具，用于评估LLMs在多轮开放式生成环境中的推理和决策能力。
优势：AgentBench能够评估商业LLMs和开源竞争对手之间的性能差距，为系统化的LLM评估提供了一个组成部分。

AgentBench是一个用于评估LLM作为agent智能体的系统化基准评测工具，突出了商业LLM和开源竞争对手之间的性能差距。

https://arxiv.org/abs/2308.03688

内容中包含的图片若涉及版权问题，请及时与我们联系删除

AgentBench: LLM支持agent智能体的能力评估

评论