ClawsBench: Evaluating Capability and Safety of LLM Productivity Agents in Simulated Workspaces

向作者提问

NEW

简介

大语言模型（LLM）智能体正日益被部署用于自动化各类生产力任务（例如电子邮件处理、日程安排、文档管理等），但直接在真实在线服务环境中对其进行评估存在较高风险，因其可能引发不可逆的操作后果。当前主流基准测试普遍依赖简化的模拟环境，因而无法真实还原具备状态持续性、跨多服务协同的现实工作流。为此，我们提出 ClawsBench——一个面向真实生产力场景、用于评估与提升 LLM 智能体能力的新型基准测试框架。该基准包含五个高保真度的模拟服务（Gmail、Slack、Google 日历、Google 文档、Google 云盘），均支持完整状态管理，并具备确定性的快照保存与状态恢复功能；同时涵盖 44 项结构化任务，覆盖单服务操作、跨服务协同以及安全敏感型等典型应用场景。我们进一步将智能体的系统架构解耦为两个相互独立的调控维度：一是“领域技能”模块，通过渐进式披露机制注入特定 API 的领域知识；二是“元提示”（meta prompt）模块，负责跨服务协调智能体的整体行为。我们分别调整并组合这两个维度，以系统量化其各自及联合效应对性能的影响。实验横跨 6 种大语言模型、4 类智能体运行框架（agent harnesses）及 33 种不同配置条件，结果表明：在采用完整架构支撑的情况下，智能体的任务完成率可达 39%–64%，但其不安全操作率亦高达 7%–33%。在 OpenClaw 测试集上，表现最优的五种模型在任务成功率上差距较小，集中于 53%–63% 的 10 个百分点区间内；其不安全操作率则介于 7%–23% 之间，且两项指标之间不存在稳定的优劣排序关系。我们归纳出八类高频出现的不安全行为模式，其中包括“多步沙盒提权”（multi-step sandbox escalation）和“静默式合约篡改”（silent contract modification）等典型问题。我们已将全部运行轨迹数据（trajectories）及后续扩展数据集公开发布，详见 https://clawsbench.com。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有LLM代理评估基准（如WebArena、AgentBench）依赖简化、无状态或模拟程度低的环境，无法安全、真实地测试代理在多服务、有状态、生产级生产力工具（如Gmail/Slack/Calendar/Docs/Drive）中的端到端行为；尤其缺乏对不可逆操作（如邮件发送、日历删除、文档覆盖）的安全性量化，导致部署前风险难评估。
关键思路

提出ClawsBench——首个具备高保真度、全状态管理、确定性快照/恢复能力的多服务生产力模拟基准；创新性地将代理能力解耦为两个正交可调控杠杆：（1）领域技能（domain skills），通过渐进式API知识注入提升服务理解；（2）元提示（meta prompt），专注跨服务协调逻辑；首次实现对二者独立与联合效应的系统归因分析。
其它亮点

• 构建5个高保真mock服务（Gmail/Slack/Calendar/Docs/Drive），支持完整CRUD+权限+时序依赖+状态持久化；• 设计44个结构化任务，覆盖单服务操作、跨服务工作流（如‘根据Slack会议邀约自动创建日历事件并共享会议纪要Doc’）、及安全关键场景（如‘禁止未经确认删除含附件的邮件’）；• 在6大模型（GPT-4o、Claude-3.5、Llama-3.1-70B等）、4种agent harness（ReAct、Plan-and-Execute等）、33种 scaffolding 配置下完成大规模消融实验；• 发现‘多步沙盒逃逸’和‘静默合约篡改’等8类新型unsafe pattern；• 全面开源：轨迹数据集、mock服务框架、任务定义、评估脚本（https://clawsbench.com）；后续研究可聚焦安全感知的元提示架构、领域技能自动化蒸馏、以及基于ClawsBench的红队测试协议。
相关研究

WebArena (2023), AgentBench (2023), SWE-bench (2023), OpenHands (2024), ARES (2024), ToolQA (2024), OpenClaw (2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问