ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

2026年04月26日
  • 简介
    语言模型智能体正日益被用作长期协作的“同事”,在多个工作日内持续协助用户完成任务。在此类工作流中,其运行环境可能独立于智能体自身而发生变化:例如,新邮件不断抵达、日历事件发生变动、知识库条目被更新,以及图像、扫描版PDF文档、音频、视频和电子表格等多种模态中陆续出现新的证据信息。然而,现有评测基准对此类场景的评估并不充分,因其通常仅在一个静态、单轮次的封闭环境中运行,且高度依赖文本信息。为此,我们提出了\bench{}——一个面向“同事型”智能体的新型评测基准,其核心设计包括:多轮次、跨多日的任务设定;具备状态记忆能力、且状态随交互轮次动态演化的沙盒化服务环境;以及基于规则的自动化验证机制。当前版本共包含覆盖13类专业场景的100项任务,执行环境涵盖5类具备状态记忆能力的沙盒化服务(文件系统、电子邮件、日历、知识库、电子表格),评测结果依据任务执行完毕后各服务的最终状态,由1537个确定性Python校验器进行打分;整个评分过程完全不依赖大语言模型(LLM)作为裁判。我们对七种前沿智能体系统进行了系统性评测:表现最优的模型加权得分为75.8分,但其严格意义上的“任务成功率”(Task Success)仅为20.0%,表明智能体虽常能取得部分进展,却极少能完整、端到端地完成整套工作流。按交互轮次展开的细粒度分析进一步显示,智能体性能在首次遭遇外部环境变更后即显著下滑,凸显出“适应动态变化的状态”仍是当前亟待突破的关键挑战。我们已将该基准测试集、配套评测框架及任务构建流水线全部开源,以支持可复现、可比较的“同事型”智能体评估研究。
  • 作者讲解
  • 图表
  • 解决问题
    现有AI代理基准测试(如WebArena、SWE-bench)多为单次、静态、文本-centric任务,无法评估语言模型代理作为长期‘数字同事’(persistent coworker)在真实办公环境中跨多日、多轮交互下应对动态变化环境(如新邮件、日程变动、知识库更新、多模态证据涌现)的持续适应与端到端工作流完成能力。
  • 关键思路
    提出首个面向‘多日协同代理’(coworker agents)的基准ench{},核心创新在于:(1)多轮多日任务设计,环境状态在回合间持续演化;(2)构建5个沙箱化、有状态的服务接口(文件系统/邮件/日历/知识库/表格),模拟真实办公系统;(3)完全摒弃LLM-as-judge,采用1537个确定性Python校验器对执行后服务终态进行规则化、可复现评分。
  • 其它亮点
    包含100个覆盖13类专业场景的任务;7个前沿代理系统参与评测,最强模型加权得分75.8但严格任务成功率仅20.0%,揭示‘部分成功普遍、全流程闭环罕见’的关键现象;首次量化发现性能在首次外部环境更新后显著下降,凸显状态适应性为关键瓶颈;完整开源基准数据、评估框架(evaluation harness)及任务生成pipeline,支持零依赖复现;所有校验逻辑确定、无随机性、无黑盒评判。
  • 相关研究
    WebArena: A Realistic Web Environment for Building Autonomous Agents (NeurIPS 2023); SWE-bench: Multi-step Real-World GitHub Issues as a Benchmark for Code Generation (ICML 2024); AgentBench: Evaluating LLMs as Agents (ACL 2024); Mind2Web: Towards a Generalist Agent for the Web (ICLR 2024); CRITIC: A Framework for Critiquing and Refining Reasoning Chains (ACL 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问