打破Agent训练瓶颈！人大&至知研究院开源Claw Agent数据+训练+评测全链条

ClawGym团队投稿
量子位 | 公众号 QbitAI

大模型从“回答问题”走向“完成任务”，正在面临以下瓶颈：

面向Claw Agents的数据、训练和评测都比传统environment training更难。

为了解决该问题，中国人民大学、至知研究院等最新提出ClawGym——

一个面向Claw Agents的一体化框架，系统连接数据合成、模型训练与可靠评测。

ClawGym包含三个核心部分：

ClawGym-SynData：首个面向Claw Agents的大规模合成数据集，包含13.5K个可执行任务。
ClawGym-Agents：基于OpenClaw黑盒执行轨迹训练Claw Agent，并探索沙盒并行强化学习。
ClawGym-Bench：包含200个高质量任务，覆盖六类工作区场景，用于诊断Agent的真实执行能力。

目前，团队已经开源ClawGym的五项核心资源，覆盖评测、模型与训练流程。

具体则包括ClawGym-Bench评测数据、评测代码、ClawGym-Agents模型检查点、训练数据和训练代码。

团队表示，这是目前较为全面的OpenClaw训练与评测资源。

为什么Claw Agent需要新的框架？

随着OpenClaw等Personal Agent环境的发展，大模型正在从“回答问题”走向“完成任务”。

但相比传统的文本推理、网页浏览或简单工具调用，Claw-style环境提出了一个更复杂的问题：

如何让Agent在一个真实、状态化、可交互的工作区中持续行动，并最终完成用户交代的任务。

在这类环境中，Agent面对的不再是一道静态题目，也不只是一个简单的工具接口，而是一个由文件、目录、脚本、表格、配置、日志和外部工具共同组成的复杂工作区。

它需要在多轮交互中读取文件、运行命令、分析数据、修改文档、生成报告，并根据环境反馈不断调整自己的行动。

更重要的是，Claw-style环境本质上是一个高度交互的执行脚手架。

Agent的每一步操作都会改变工作区状态，后续决策又依赖这些中间状态。

任务是否完成，不取决于Agent是否说“我完成了”，而取决于最终工作区是否真的被正确更新：文件是否生成、路径是否正确、表格计算是否准确、输出格式是否满足要求、多个文件之间是否保持一致。

也正因为如此，面向Claw Agents的数据、训练和评测都比传统environment training更难。

现有工作大多关注静态问答、网页任务、代码修复或特定工具调用场景，而针对这种开放式、长程、多产物、可验证的个人工作区环境，系统性的任务构造、轨迹采集、模型训练和可靠评测仍然相对缺乏。

正是在这样的背景下，团队推出了ClawGym。

它的目标不是单独提供一个任务集或一个训练脚本，而是为Claw-style Personal Agents构建从任务生成、环境执行、轨迹学习到能力诊断的完整闭环。

具体而言，团队认为Claw-style任务更接近真实办公场景：

用户给出目标，Agent需要在本地工作区中持续操作，直到最终状态满足要求。

而这带来几个关键挑战。

任务难构造：Claw-style任务需要覆盖个性化需求、真实工作流和可执行操作，不能只是简单生成一个prompt。
轨迹难采集：OpenClaw这类系统高度封装，需要依赖黑盒rollout获取复杂长程交互轨迹，并从执行日志中还原高质量训练轨迹。
训练难稳定：尤其在强化学习阶段，模型需要在大量独立沙盒中并发rollout，训练成本高，稳定性也更难保证。
奖励难定义：任务成功不取决于文本相似度，而是最终工作区状态是否正确，需要验证文件、结构、数值和多维产物质量。

ClawGym-SynData：构建可执行、可验证的工作区任务

ClawGym-SynData是整个框架的数据基础，包含13.5K个可执行任务。

其构建流程包括四个环节：

任务生成→资源准备→验证设计→质量评估。

双路线任务合成

为了让ClawGym中的任务既贴近真实用户需求，又能够在工作区中被真正执行和验证，ClawGym采用了两条互补的任务合成路线：persona-driven top-down synthesis和skill-grounded bottom-up synthesis。

第一条路线是persona-driven top-down synthesis，也就是从“用户想做什么”出发生成任务。

ClawGym首先构建不同的用户画像、工作场景和原子操作组合，例如文件整理、数据分析、报告生成、配置修改等。随后，模型会基于这些要素生成具体任务指令，使任务不再只是抽象 prompt，而是更接近真实用户在办公、开发、数据处理等场景中的实际需求。

第二条路线是skill-grounded bottom-up synthesis，也就是从“系统能做什么”出发生成任务。

ClawGym会从OpenClaw skills中提取可复用的工具能力，并通过技能标注、过滤和组合，判断哪些skills适合用于任务合成。这一路线保证生成的任务不是空泛的想象，而是与OpenClaw的实际工具能力和执行边界对齐，能够真正落到可运行的工作区操作中。

两条路线的作用互为补充。

前者提供用户意图、场景覆盖和任务多样性，让任务更“真实”；后者提供工具能力、执行grounding和可操作性，让任务更“可做”。

二者结合后，ClawGym能够生成一批既符合真实工作流，又能在环境中执行、检查和评分的Claw-style tasks。

自动生成Mock Workspace

Claw-style任务不能只有指令，还需要一个可操作的初始工作区。

只有当任务所需的文件、字段、数据和目录结构真实存在时，Agent才能在环境中执行操作，而不是停留在文本回答层面。

因此，ClawGym会为每个任务自动生成轻量级mock workspace，包括Markdown、JSON、CSV、YAML、配置文件、日志和原始记录。这些资源会围绕任务目标构造，提供执行过程中需要读取、分析、修改或引用的内容。

通过这种方式，每个任务都拥有明确的初始状态和可控的数据条件。Agent需要基于工作区中的真实文件完成任务，最终结果也可以根据文件路径、字段、数值、约束和产物内容进行稳定验证。

混合验证机制

在验证设计上，ClawGym采用code-based verification + rubric-based verification，同时覆盖客观正确性和主观质量要求。

Code-based verification负责检查可以用程序确定判断的部分，例如文件是否生成在正确路径下，JSON/CSV schema是否符合要求，数值计算、过滤规则、排序逻辑和输入输出一致性是否正确。
Rubric-based verification则用于评估更难完全用代码刻画的质量要求，例如报告是否清晰，摘要是否忠实，表达是否专业，内容是否完整，以及产物是否符合用户意图。

二者结合后，ClawGym不仅能判断Agent有没有完成任务，还能进一步判断它是否真正做对、做好。

这使任务结果不只是“看起来合理”，而是能够经得起结构、内容和质量层面的验证。

ClawGym-Agents：从真实执行轨迹中训练Agent

有了任务数据之后，ClawGym通过OpenClaw black-box rollout收集真实交互轨迹，而不是重新实现一个简化agent loop。

这样可以更真实地保留Agent在OpenClaw中的行为模式，包括上下文管理、工具调用和环境反馈。

轨迹收集后，ClawGym会进行聚合、清洗和筛选：恢复完整多轮轨迹，去除heartbeat、cron等无关系统提示，过滤异常轨迹，并根据verifier score保留高质量样本。

最终筛选出的轨迹平均包含13.00轮交互、18.67K tokens、15.82次工具调用和3.25种工具类型。

这说明，训练数据不是短回复或单步工具调用，而是包含规划、文件检查、工具执行、环境反馈和中间调整的多轮agentic supervision。

基于这些轨迹，ClawGym对Qwen3系列模型进行multi-turn SFT，得到ClawGym-4B、ClawGym-8B和ClawGym-30B-A3B。训练时对环境反馈进行loss masking，使模型重点学习自身生成的推理、决策和工具调用。

此外，ClawGym还探索了sandbox-parallel RL。每个任务在独立sandbox 中运行，并直接使用code verifier提供outcome reward。

实验显示，无论从原始Qwen3-4B-2507-Instruct 出发，还是从经过SFT的ClawGym-30B-A3B出发，RL都能带来进一步提升。

ClawGym-Bench：评测Agent是否真的会做事

ClawGym-Bench由200个经过严格筛选的任务组成，用于评估Claw Agent在真实工作区中的执行能力。

相比用于训练的数据，ClawGym-Bench对任务质量和评测可靠性提出了更高要求。

它不仅要求任务本身真实、可执行，还要求评测结果能够稳定反映模型之间的能力差异。

为此，ClawGym-Bench采用难度感知筛选，优先保留那些既具有挑战性、又能区分不同模型表现的任务。

同时，每个候选任务都会经过“人类-大模型协同审查”：前沿大模型先对任务指令、输入资源、验证器和评分标准进行诊断式检查，识别潜在歧义、不可执行要求或验证漏洞，再由人类审查者完成最终确认。

在任务覆盖上，ClawGym-Bench 涵盖六类典型工作区场景：

生产力与协作
系统与自动化
分析与推理
内容与领域支持
规划与知识管理
软件开发

因此，ClawGym-Bench的作用不只是给模型一个最终分数。

它还可以进一步分析模型在不同工作区能力上的表现差异，例如是否能正确理解文件状态、选择合适工具、完成长程执行、遵循细粒度要求，并生成符合用户需求的最终产物。

实验结果：合成数据显著提升执行能力

实验表明，ClawGym-SynData能够稳定提升不同规模开源模型在Claw-style任务中的表现。

经过训练后，ClawGym-4B、ClawGym-8B和ClawGym-30B-A3B在ClawGym-Bench上分别达到47.73、50.24和56.82，均超过对应的基座模型。

其中，ClawGym-30B-A3B还超过了规模更大的Qwen3-235B-A23B，说明高质量Agent交互数据能够在一定程度上弥补模型规模不足。

ClawGym-Bench也展现出良好的区分能力。不同模型的平均得分从Qwen3-8B的35.02到Claude-4.7-Opus的77.81，形成清晰的能力梯度。

而且，ClawGym-Agents只使用ClawGym-SynData训练，却能在外部基准PinchBench上取得明显提升。

其中，ClawGym-30B-A3B达到86.00，说明模型学到的并不是合成任务模板，而是可迁移的工作区执行能力。

行为分析：难点不只是“会调用工具”

Claw Agent面对的是一个持续变化的用户工作区。已有文件、目录结构、脚本输出、中间状态和最终产物，都会影响任务是否真正完成。

因此，关键能力不是简单地“会调用工具”，而是能否把工作区一步步更新到满足用户要求的最终状态。

这主要体现在三点。

从工具调用到工作流组织。 Claw Agent需要把文件探索、信息读取、脚本执行、结果检查和产物验证串联成完整流程，而不是完成孤立的工具调用。

从单步执行到长程恢复。在真实工作区中，路径错误、文件缺失、命令失败很常见。强模型能够把错误作为反馈继续推进任务，弱模型则容易在连续错误中偏离目标。

从生成答案到验证产物。 Claw Agent的输出不是一段文本，而是CSV、JSON、报告、脚本等工作区产物。这些产物必须满足字段、公式、过滤规则和跨文件一致性等细粒度要求。

因此，Claw-style任务考察的不是单一语言能力，也不是简单工具调用能力，而是Agent在状态化工作区中持续执行、恢复错误并保证最终产物正确的能力。

小结一下

ClawGym的核心价值在于，它将Claw Agent的数据构建、能力训练和可靠评测连接成一个完整闭环。

ClawGym-SynData提供大规模、可执行、可验证的工作区任务；
ClawGym-Agents从OpenClaw黑盒执行轨迹中学习如何在环境中行动；
ClawGym-Bench则用于评估Agent是否真正完成了工作区任务。

ClawGym关注的不只是模型能否“说出答案”，而是模型能否在工作区中完成可检查、可验证的任务。

对于Personal Agent来说，这正是从对话能力走向执行能力的关键一步。

关于至知创新研究院。它立足人工智能前沿，是由深厚产业智慧驱动的新型科研组织，核心破解尖端研究与规模化产业落地的产学研难题。他们以原创性底层算法与下一代AI架构攻坚为基石，聚焦前沿技术突破、高复杂度场景落地、全球产学研生态协同三大核心目标。

至知以产业一线核心瓶颈锚定研究方向，为顶尖科研人才提供纯粹的探索环境。他们深耕AI+科学计算、前沿科技等核心垂直领域，以卓越的学术能力与极致的工程精神，深耕技术本源，释放AI全维度深层价值。

项目主页：https://github.com/ClawGym

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注AI的学术编辑实习生 🎓

感兴趣的小伙伴欢迎关注 👉 了解详情

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题，请及时与我们联系删除