ClawGym团队 投稿
量子位 | 公众号 QbitAI
大模型从“回答问题”走向“完成任务”,正在面临以下瓶颈:
面向Claw Agents的数据、训练和评测都比传统environment training更难。
为了解决该问题,中国人民大学、至知研究院等最新提出ClawGym——
一个面向Claw Agents的一体化框架,系统连接数据合成、模型训练与可靠评测。

ClawGym包含三个核心部分:
ClawGym-SynData:首个面向Claw Agents的大规模合成数据集,包含13.5K个可执行任务。 ClawGym-Agents:基于OpenClaw黑盒执行轨迹训练Claw Agent,并探索沙盒并行强化学习。 ClawGym-Bench:包含200个高质量任务,覆盖六类工作区场景,用于诊断Agent的真实执行能力。
目前,团队已经开源ClawGym的五项核心资源,覆盖评测、模型与训练流程。
具体则包括ClawGym-Bench评测数据、评测代码、ClawGym-Agents模型检查点、训练数据和训练代码。
团队表示,这是目前较为全面的OpenClaw训练与评测资源。
为什么Claw Agent需要新的框架?
随着OpenClaw等Personal Agent环境的发展,大模型正在从“回答问题”走向“完成任务”。
但相比传统的文本推理、网页浏览或简单工具调用,Claw-style环境提出了一个更复杂的问题:
如何让Agent在一个真实、状态化、可交互的工作区中持续行动,并最终完成用户交代的任务。
在这类环境中,Agent面对的不再是一道静态题目,也不只是一个简单的工具接口,而是一个由文件、目录、脚本、表格、配置、日志和外部工具共同组成的复杂工作区。
它需要在多轮交互中读取文件、运行命令、分析数据、修改文档、生成报告,并根据环境反馈不断调整自己的行动。
更重要的是,Claw-style环境本质上是一个高度交互的执行脚手架。
Agent的每一步操作都会改变工作区状态,后续决策又依赖这些中间状态。
任务是否完成,不取决于Agent是否说“我完成了”,而取决于最终工作区是否真的被正确更新:文件是否生成、路径是否正确、表格计算是否准确、输出格式是否满足要求、多个文件之间是否保持一致。
也正因为如此,面向Claw Agents的数据、训练和评测都比传统environment training更难。
现有工作大多关注静态问答、网页任务、代码修复或特定工具调用场景,而针对这种开放式、长程、多产物、可验证的个人工作区环境,系统性的任务构造、轨迹采集、模型训练和可靠评测仍然相对缺乏。
正是在这样的背景下,团队推出了ClawGym。
它的目标不是单独提供一个任务集或一个训练脚本,而是为Claw-style Personal Agents构建从任务生成、环境执行、轨迹学习到能力诊断的完整闭环。
具体而言,团队认为Claw-style任务更接近真实办公场景:
用户给出目标,Agent需要在本地工作区中持续操作,直到最终状态满足要求。
而这带来几个关键挑战。
任务难构造:Claw-style任务需要覆盖个性化需求、真实工作流和可执行操作,不能只是简单生成一个prompt。 轨迹难采集:OpenClaw这类系统高度封装,需要依赖黑盒rollout获取复杂长程交互轨迹,并从执行日志中还原高质量训练轨迹。 训练难稳定:尤其在强化学习阶段,模型需要在大量独立沙盒中并发rollout,训练成本高,稳定性也更难保证。 奖励难定义:任务成功不取决于文本相似度,而是最终工作区状态是否正确,需要验证文件、结构、数值和多维产物质量。

ClawGym-SynData:构建可执行、可验证的工作区任务
ClawGym-SynData是整个框架的数据基础,包含13.5K个可执行任务。
其构建流程包括四个环节:
任务生成→资源准备→验证设计→质量评估。

双路线任务合成
为了让ClawGym中的任务既贴近真实用户需求,又能够在工作区中被真正执行和验证,ClawGym采用了两条互补的任务合成路线:persona-driven top-down synthesis和skill-grounded bottom-up synthesis。
第一条路线是persona-driven top-down synthesis,也就是从“用户想做什么”出发生成任务。
ClawGym首先构建不同的用户画像、工作场景和原子操作组合,例如文件整理、数据分析、报告生成、配置修改等。随后,模型会基于这些要素生成具体任务指令,使任务不再只是抽象 prompt,而是更接近真实用户在办公、开发、数据处理等场景中的实际需求。
第二条路线是skill-grounded bottom-up synthesis,也就是从“系统能做什么”出发生成任务。
ClawGym会从OpenClaw skills中提取可复用的工具能力,并通过技能标注、过滤和组合,判断哪些skills适合用于任务合成。这一路线保证生成的任务不是空泛的想象,而是与OpenClaw的实际工具能力和执行边界对齐,能够真正落到可运行的工作区操作中。
两条路线的作用互为补充。
前者提供用户意图、场景覆盖和任务多样性,让任务更“真实”;后者提供工具能力、执行grounding和可操作性,让任务更“可做”。
二者结合后,ClawGym能够生成一批既符合真实工作流,又能在环境中执行、检查和评分的Claw-style tasks。

自动生成Mock Workspace
Claw-style任务不能只有指令,还需要一个可操作的初始工作区。
只有当任务所需的文件、字段、数据和目录结构真实存在时,Agent才能在环境中执行操作,而不是停留在文本回答层面。
因此,ClawGym会为每个任务自动生成轻量级mock workspace,包括Markdown、JSON、CSV、YAML、配置文件、日志和原始记录。这些资源会围绕任务目标构造,提供执行过程中需要读取、分析、修改或引用的内容。
通过这种方式,每个任务都拥有明确的初始状态和可控的数据条件。Agent需要基于工作区中的真实文件完成任务,最终结果也可以根据文件路径、字段、数值、约束和产物内容进行稳定验证。
混合验证机制
在验证设计上,ClawGym采用code-based verification + rubric-based verification,同时覆盖客观正确性和主观质量要求。
Code-based verification负责检查可以用程序确定判断的部分,例如文件是否生成在正确路径下,JSON/CSV schema是否符合要求,数值计算、过滤规则、排序逻辑和输入输出一致性是否正确。
Rubric-based verification则用于评估更难完全用代码刻画的质量要求,例如报告是否清晰,摘要是否忠实,表达是否专业,内容是否完整,以及产物是否符合用户意图。
二者结合后,ClawGym不仅能判断Agent有没有完成任务,还能进一步判断它是否真正做对、做好。
这使任务结果不只是“看起来合理”,而是能够经得起结构、内容和质量层面的验证。
ClawGym-Agents:从真实执行轨迹中训练Agent
有了任务数据之后,ClawGym通过OpenClaw black-box rollout收集真实交互轨迹,而不是重新实现一个简化agent loop。
这样可以更真实地保留Agent在OpenClaw中的行为模式,包括上下文管理、工具调用和环境反馈。
轨迹收集后,ClawGym会进行聚合、清洗和筛选:恢复完整多轮轨迹,去除heartbeat、cron等无关系统提示,过滤异常轨迹,并根据verifier score保留高质量样本。
最终筛选出的轨迹平均包含13.00轮交互、18.67K tokens、15.82次工具调用和3.25种工具类型。
这说明,训练数据不是短回复或单步工具调用,而是包含规划、文件检查、工具执行、环境反馈和中间调整的多轮agentic supervision。
基于这些轨迹,ClawGym对Qwen3系列模型进行multi-turn SFT,得到ClawGym-4B、ClawGym-8B和ClawGym-30B-A3B。训练时对环境反馈进行loss masking,使模型重点学习自身生成的推理、决策和工具调用。
此外,ClawGym还探索了sandbox-parallel RL。每个任务在独立sandbox 中运行,并直接使用code verifier提供outcome reward。
实验显示,无论从原始Qwen3-4B-2507-Instruct 出发,还是从经过SFT的ClawGym-30B-A3B出发,RL都能带来进一步提升。
ClawGym-Bench:评测Agent是否真的会做事
ClawGym-Bench由200个经过严格筛选的任务组成,用于评估Claw Agent在真实工作区中的执行能力。
相比用于训练的数据,ClawGym-Bench对任务质量和评测可靠性提出了更高要求。
它不仅要求任务本身真实、可执行,还要求评测结果能够稳定反映模型之间的能力差异。
为此,ClawGym-Bench采用难度感知筛选,优先保留那些既具有挑战性、又能区分不同模型表现的任务。
同时,每个候选任务都会经过“人类-大模型协同审查”:前沿大模型先对任务指令、输入资源、验证器和评分标准进行诊断式检查,识别潜在歧义、不可执行要求或验证漏洞,再由人类审查者完成最终确认。
在任务覆盖上,ClawGym-Bench 涵盖六类典型工作区场景:
生产力与协作 系统与自动化 分析与推理 内容与领域支持 规划与知识管理 软件开发
因此,ClawGym-Bench的作用不只是给模型一个最终分数。
它还可以进一步分析模型在不同工作区能力上的表现差异,例如是否能正确理解文件状态、选择合适工具、完成长程执行、遵循细粒度要求,并生成符合用户需求的最终产物。

实验结果:合成数据显著提升执行能力
实验表明,ClawGym-SynData能够稳定提升不同规模开源模型在Claw-style任务中的表现。
经过训练后,ClawGym-4B、ClawGym-8B和ClawGym-30B-A3B在ClawGym-Bench上分别达到47.73、50.24和56.82,均超过对应的基座模型。
其中,ClawGym-30B-A3B还超过了规模更大的Qwen3-235B-A23B,说明高质量Agent交互数据能够在一定程度上弥补模型规模不足。
ClawGym-Bench也展现出良好的区分能力。不同模型的平均得分从Qwen3-8B的35.02到Claude-4.7-Opus的77.81,形成清晰的能力梯度。
而且,ClawGym-Agents只使用ClawGym-SynData训练,却能在外部基准PinchBench上取得明显提升。
其中,ClawGym-30B-A3B达到86.00,说明模型学到的并不是合成任务模板,而是可迁移的工作区执行能力。

行为分析:难点不只是“会调用工具”
Claw Agent面对的是一个持续变化的用户工作区。已有文件、目录结构、脚本输出、中间状态和最终产物,都会影响任务是否真正完成。
因此,关键能力不是简单地“会调用工具”,而是能否把工作区一步步更新到满足用户要求的最终状态。
这主要体现在三点。
从工具调用到工作流组织。 Claw Agent需要把文件探索、信息读取、脚本执行、结果检查和产物验证串联成完整流程,而不是完成孤立的工具调用。
从单步执行到长程恢复。 在真实工作区中,路径错误、文件缺失、命令失败很常见。强模型能够把错误作为反馈继续推进任务,弱模型则容易在连续错误中偏离目标。
从生成答案到验证产物。 Claw Agent的输出不是一段文本,而是CSV、JSON、报告、脚本等工作区产物。这些产物必须满足字段、公式、过滤规则和跨文件一致性等细粒度要求。
因此,Claw-style任务考察的不是单一语言能力,也不是简单工具调用能力,而是Agent在状态化工作区中持续执行、恢复错误并保证最终产物正确的能力。

小结一下
ClawGym的核心价值在于,它将Claw Agent的数据构建、能力训练和可靠评测连接成一个完整闭环。
ClawGym-SynData提供大规模、可执行、可验证的工作区任务; ClawGym-Agents从OpenClaw黑盒执行轨迹中学习如何在环境中行动; ClawGym-Bench则用于评估Agent是否真正完成了工作区任务。
ClawGym关注的不只是模型能否“说出答案”,而是模型能否在工作区中完成可检查、可验证的任务。
对于Personal Agent来说,这正是从对话能力走向执行能力的关键一步。
关于至知创新研究院。它立足人工智能前沿,是由深厚产业智慧驱动的新型科研组织,核心破解尖端研究与规模化产业落地的产学研难题。他们以原创性底层算法与下一代AI架构攻坚为基石,聚焦前沿技术突破、高复杂度场景落地、全球产学研生态协同三大核心目标。
至知以产业一线核心瓶颈锚定研究方向,为顶尖科研人才提供纯粹的探索环境。他们深耕AI+科学计算、前沿科技等核心垂直领域,以卓越的学术能力与极致的工程精神,深耕技术本源,释放AI全维度深层价值。
项目主页:https://github.com/ClawGym
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注AI的学术编辑实习生 🎓

🌟 点亮星标 🌟
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢