- 简介大型语言模型(LLM)智能体正日益被期望在企业环境中运行——这类环境中的工作通常按专业化角色分工,依托权限受控的系统,并遵循跨部门协作流程。然而,当前主流的企业级评测基准大多仅针对单一智能体展开评估,且赋予其广泛的工具访问权限;而现有的多智能体评测基准又极少涵盖真实企业场景中的关键约束条件,例如角色专业化、访问权限控制、具备状态记忆的企业业务系统,以及基于政策的审批机制。为此,我们提出 \textsc{EntCollabBench},一个专门用于评估企业级多智能体协同能力的新型基准。 \textsc{EntCollabBench} 模拟了一个权限严格隔离的组织架构,包含横跨六个部门的 11 个角色特化智能体;该基准由两个评测子集构成:一是“工作流子集”(Workflow subset),要求智能体协同操作并变更企业系统的内部状态;二是“审批子集”(Approval subset),要求智能体依据既定政策作出审慎决策。本基准的评估不依赖对自然语言输出的主观判断,而是基于可追溯的执行轨迹(execution traces)、数据库状态的精确验证(database state verification),以及确定性的政策裁决机制(deterministic policy adjudication)。 针对代表性 LLM 智能体开展的实验表明,当前模型在端到端企业级协同任务中仍面临显著挑战,尤其体现在任务委派(delegation)、上下文信息传递(context transfer)、参数语义锚定(parameter grounding)、工作流闭环完成(workflow closure)以及决策结果的坚定执行(decision commitment)等关键环节。 \textsc{EntCollabBench} 提供了一个可复现、可验证的测试平台,旨在科学衡量并持续优化面向真实组织环境部署的智能体系统。
-
- 图表
- 解决问题现有企业级大语言模型(LLM)代理基准测试严重脱离真实企业环境:单代理基准忽略角色分工与权限隔离,多代理基准又缺乏对状态化业务系统、策略驱动审批流、部门间协作规程等关键约束的建模。论文旨在系统性验证——当前LLM代理是否真正具备在真实组织中完成端到端、合规、协作式任务的能力。
- 关键思路提出首个面向真实企业协作范式的多代理基准EntCollabBench:1)显式建模11个角色专属代理(覆盖6大部门),每个代理拥有严格隔离的工具集与数据访问权限;2)设计双轨评估——Workflow子集(需跨代理协同修改真实数据库状态)与Approval子集(需依据可验证的企业政策规则作出确定性决策);3)摒弃主观文本评分,采用执行轨迹回放、数据库状态快照比对、策略引擎自动裁决等客观、可复现、零歧义的评估机制。
- 其它亮点实验覆盖GPT-4o、Claude-3.5、Llama-3.1等主流闭源/开源LLM代理,发现其在委托链断裂、上下文跨角色衰减、参数在权限边界内精准接地、工作流闭环确认、审批决策不可撤回性等5个核心维度表现薄弱;基准完全开源(含仿真企业DB schema、角色权限矩阵、127条细粒度政策规则、自动化评估器);首次将‘策略可 adjudicate’(政策可裁决性)作为核心评估维度,为AI治理落地提供可测量接口;后续研究应聚焦权限感知的上下文压缩、基于策略图谱的推理增强、以及带状态记忆的委托协议建模。
- CRAG (2023), AgentBench (2023), WebCPM (2023), GAIA (2023), SWE-bench (2023), ToolBench (2023), MultiAgentBench (2024), OrgBench (2024 preprint), PolicyQA (2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流