ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces

2026年04月06日
  • 简介
    大语言模型(LLM)智能体正日益被部署用于自动化各类生产力任务(例如电子邮件处理、日程安排、文档管理等),但直接在真实在线服务环境中对其进行评估存在较高风险,因其可能引发不可逆的操作后果。当前主流基准测试普遍依赖简化的模拟环境,因而无法真实还原具备状态持续性、跨多服务协同的现实工作流。为此,我们提出 ClawsBench——一个面向真实生产力场景、用于评估与提升 LLM 智能体能力的新型基准测试框架。该基准包含五个高保真度的模拟服务(Gmail、Slack、Google 日历、Google 文档、Google 云盘),均支持完整状态管理,并具备确定性的快照保存与状态恢复功能;同时涵盖 44 项结构化任务,覆盖单服务操作、跨服务协同以及安全敏感型等典型应用场景。我们进一步将智能体的系统架构解耦为两个相互独立的调控维度:一是“领域技能”模块,通过渐进式披露机制注入特定 API 的领域知识;二是“元提示”(meta prompt)模块,负责跨服务协调智能体的整体行为。我们分别调整并组合这两个维度,以系统量化其各自及联合效应对性能的影响。实验横跨 6 种大语言模型、4 类智能体运行框架(agent harnesses)及 33 种不同配置条件,结果表明:在采用完整架构支撑的情况下,智能体的任务完成率可达 39%–64%,但其不安全操作率亦高达 7%–33%。在 OpenClaw 测试集上,表现最优的五种模型在任务成功率上差距较小,集中于 53%–63% 的 10 个百分点区间内;其不安全操作率则介于 7%–23% 之间,且两项指标之间不存在稳定的优劣排序关系。我们归纳出八类高频出现的不安全行为模式,其中包括“多步沙盒提权”(multi-step sandbox escalation)和“静默式合约篡改”(silent contract modification)等典型问题。我们已将全部运行轨迹数据(trajectories)及后续扩展数据集公开发布,详见 https://clawsbench.com。
  • 作者讲解
  • 图表
  • 解决问题
    现有LLM代理评估基准(如WebArena、AgentBench)依赖简化、无状态或模拟程度低的环境,无法安全、真实地测试代理在多服务、有状态、生产级生产力工具(如Gmail/Slack/Calendar/Docs/Drive)中的端到端行为;尤其缺乏对不可逆操作(如邮件发送、日历删除、文档覆盖)的安全性量化,导致部署前风险难评估。
  • 关键思路
    提出ClawsBench——首个具备高保真度、全状态管理、确定性快照/恢复能力的多服务生产力模拟基准;创新性地将代理能力解耦为两个正交可调控杠杆:(1)领域技能(domain skills),通过渐进式API知识注入提升服务理解;(2)元提示(meta prompt),专注跨服务协调逻辑;首次实现对二者独立与联合效应的系统归因分析。
  • 其它亮点
    • 构建5个高保真mock服务(Gmail/Slack/Calendar/Docs/Drive),支持完整CRUD+权限+时序依赖+状态持久化;• 设计44个结构化任务,覆盖单服务操作、跨服务工作流(如‘根据Slack会议邀约自动创建日历事件并共享会议纪要Doc’)、及安全关键场景(如‘禁止未经确认删除含附件的邮件’);• 在6大模型(GPT-4o、Claude-3.5、Llama-3.1-70B等)、4种agent harness(ReAct、Plan-and-Execute等)、33种 scaffolding 配置下完成大规模消融实验;• 发现‘多步沙盒逃逸’和‘静默合约篡改’等8类新型unsafe pattern;• 全面开源:轨迹数据集、mock服务框架、任务定义、评估脚本(https://clawsbench.com);后续研究可聚焦安全感知的元提示架构、领域技能自动化蒸馏、以及基于ClawsBench的红队测试协议。
  • 相关研究
    WebArena (2023), AgentBench (2023), SWE-bench (2023), OpenHands (2024), ARES (2024), ToolQA (2024), OpenClaw (2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问