NEW

ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents

Fanqing Meng ,

Lingxiao Du ,

Zijian Wu ,

Guanzheng Chen ,

Xiangyan Liu ,

Jiaqi Liao ,

Chonghe Jiang ,

Zhenglin Wan ,

Jiawei Gu ,

Pengfei Zhou ,

Rui Huang ,

Ziqi Zhao ,

Shengyuan Ding ,

Ailing Yu ,

Bo Peng ,

Bowei Xia ,

Hao Sun ,

Haotian Liang ,

Ji Xie ,

Jiajun Chen ,

Jiajun Song ,

Liu Yang ,

Ming Xu ,

Qionglin Qiu ,

Runhao Fu ,

Shengfang Zhai ,

Shijian Wang ,

Tengfei Ma ,

Tianyi Wu ,

Weiyang Jin ,

Yan Wang ,

Yang Dai ,

Yao Lai ,

Youwei Shu ,

Yue Liu ,

Yunzhuo Hao ,

Yuwei Niu ,

Jinkai Huang ,

Jiayuan Zhuo ,

Zhennan Shen ,

Linyu Wu ,

Hannah Yao ,

Charles Chen ,

Cihang Xie ,

Yuyin Zhou ,

Jiaheng Zhang ,

Zeyu Zheng ,

Mengkang Hu ,

Michael Qizhe Shieh

热度 106

2026年04月26日

简介

语言模型智能体正日益被用作长期协作的“同事”，在多个工作日内持续协助用户完成任务。在此类工作流中，其运行环境可能独立于智能体自身而发生变化：例如，新邮件不断抵达、日历事件发生变动、知识库条目被更新，以及图像、扫描版PDF文档、音频、视频和电子表格等多种模态中陆续出现新的证据信息。然而，现有评测基准对此类场景的评估并不充分，因其通常仅在一个静态、单轮次的封闭环境中运行，且高度依赖文本信息。为此，我们提出了\bench{}——一个面向“同事型”智能体的新型评测基准，其核心设计包括：多轮次、跨多日的任务设定；具备状态记忆能力、且状态随交互轮次动态演化的沙盒化服务环境；以及基于规则的自动化验证机制。当前版本共包含覆盖13类专业场景的100项任务，执行环境涵盖5类具备状态记忆能力的沙盒化服务（文件系统、电子邮件、日历、知识库、电子表格），评测结果依据任务执行完毕后各服务的最终状态，由1537个确定性Python校验器进行打分；整个评分过程完全不依赖大语言模型（LLM）作为裁判。我们对七种前沿智能体系统进行了系统性评测：表现最优的模型加权得分为75.8分，但其严格意义上的“任务成功率”（Task Success）仅为20.0%，表明智能体虽常能取得部分进展，却极少能完整、端到端地完成整套工作流。按交互轮次展开的细粒度分析进一步显示，智能体性能在首次遭遇外部环境变更后即显著下滑，凸显出“适应动态变化的状态”仍是当前亟待突破的关键挑战。我们已将该基准测试集、配套评测框架及任务构建流水线全部开源，以支持可复现、可比较的“同事型”智能体评估研究。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有AI代理基准测试（如WebArena、SWE-bench）多为单次、静态、文本-centric任务，无法评估语言模型代理作为长期‘数字同事’（persistent coworker）在真实办公环境中跨多日、多轮交互下应对动态变化环境（如新邮件、日程变动、知识库更新、多模态证据涌现）的持续适应与端到端工作流完成能力。
关键思路

提出首个面向‘多日协同代理’（coworker agents）的基准ench{}，核心创新在于：（1）多轮多日任务设计，环境状态在回合间持续演化；（2）构建5个沙箱化、有状态的服务接口（文件系统/邮件/日历/知识库/表格），模拟真实办公系统；（3）完全摒弃LLM-as-judge，采用1537个确定性Python校验器对执行后服务终态进行规则化、可复现评分。
其它亮点

包含100个覆盖13类专业场景的任务；7个前沿代理系统参与评测，最强模型加权得分75.8但严格任务成功率仅20.0%，揭示‘部分成功普遍、全流程闭环罕见’的关键现象；首次量化发现性能在首次外部环境更新后显著下降，凸显状态适应性为关键瓶颈；完整开源基准数据、评估框架（evaluation harness）及任务生成pipeline，支持零依赖复现；所有校验逻辑确定、无随机性、无黑盒评判。
相关研究

WebArena: A Realistic Web Environment for Building Autonomous Agents (NeurIPS 2023); SWE-bench: Multi-step Real-World GitHub Issues as a Benchmark for Code Generation (ICML 2024); AgentBench: Evaluating LLMs as Agents (ACL 2024); Mind2Web: Towards a Generalist Agent for the Web (ICLR 2024); CRITIC: A Framework for Critiquing and Refining Reasoning Chains (ACL 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问