青源Workshop｜Agent如何进化？从OpenClaw谈起🦞从 RL、RAG 到具身智能与AI4Science

Agent正从实验室的构想加速走向产业实践的前沿。从单一大模型的“单兵作战”到多智能体系统的“兵团协作”，从封闭环境的有限探索到开放生态的无限可能，智能体正在经历一场前所未有的“模块重组”，其进化路径正在被重新定义。智源Workshop第33期特邀五位深度参与这场变革的学术工作者和探索者，从五个不同方向——强化学习、具身智能、生命科学、知识检索、系统优化——他们围绕着OpenClaw的开源框架，展开了一场关于Agent进化路径的深度对话。本文为Workshop文字稿，小龙虾辅助撰写。

强化学习：OpenClaw-RL让AI在真实对话中持续进化，过程比结果更重要，越用越强

王胤杰来自芝加哥大学，在普林斯顿王梦迪工作组做强化学习。他带来了OpenClaw-RL的框架，核心思路很直接：让Agent在真实对话中进化。

过去做强化学习，大家习惯了在模拟器里“玩游戏得分”——环境可控，反馈明确，一轮交互短则几秒，长也不过几分钟。但王胤杰认为，Agentic AI正在把RL拉回一个更复杂的世界：Agent要和真实用户打交道，要处理模糊的反馈，要在一场可能持续几小时的对话中不断调整自己。

他举了两个例子。一个是学生用AI写作业，希望答案既正确又不那么“AI味”——不要加粗，不要标号，不要“Final Answer”这种模板。另一个是老师用AI改作业，希望批语既具体又友善。经过几十轮交互，AI的输出风格真的变了。这种变化不是靠更多的算力，而是靠一种混合训练方法：把“好/坏”的二值反馈和用户的具体纠正结合起来，让模型在真实使用中持续进化。

王胤杰表示，过程奖励模型会变得越来越重要。不仅要看最终结果，还要看中间步骤做得对不对。这是一个很务实的判断——真实世界里，结果往往不是唯一的裁判。

具身智能：龙虾的硬壳与软肋，不能只靠一个大模型“端到端”地输出动作

王文灏来自智元机器人，他和上海交大穆尧团队合作的RoboClaw项目，是国内首个以OpenClaw为“大脑”的具身智能系统。

他讲了一个有趣的比喻：龙虾。机器人看似有硬壳保护，其实内部很脆弱。放进真实环境——厨房也好，实验室也罢——环境的多变性、任务的泛化性、硬件的可靠性，每一个环节都可能让它“卡壳”。

RoboClaw的解法是：让机器人自己练技能。他们把任务拆解成“前向执行”和“逆向恢复”两步，机器人先尝试做某个动作，如果失败，就执行一个专门训练的“环境恢复策略”把场景复原，然后重新尝试。这样一来，机器人可以反复自己练习，大大减少人类遥控的成本。

这套思路背后有一个观点：不能只靠一个大模型“端到端”地输出动作。真正让机器人走进家庭和工厂的，是把复杂任务拆解成可复用的技能，让Agent框架去高效地组织这些技能。机器人的学习会越来越像人类：在尝试中犯错，在犯错中学会恢复。

把复杂任务拆解成可复用的技能，让Agent框架去高效地组织

AI4S生命科学：OpenClaw重新理解“科研门槛”，价值在于把这些专业工具串联起来

李明辰是上海交大洪亮课题组的博士后，他用OpenClaw做了一件听起来很科幻的事：设计蛋白质。

他在实验室部署了一套三层架构：用户通过飞书或钉钉下达指令，OpenClaw接收指令后连接GPU集群，调用AlphaFold、分子动力学模拟等专业软件，最终输出设计好的蛋白质。这套系统已经产出了几个实打实的成果：耐碱蛋白酶打破了国外垄断，PET塑料降解酶正在推进产业化，长效尿酸酶在小鼠实验中效果显著。

但李明辰最想讲的不是这些成果，而是一次个人经历。他用OpenClaw跑了一次分子动力学模拟——从环境安装、参数配置、轨迹运行，到后续分析与结果输出。过去可能需要数周甚至数月才能掌握的技能，被压缩成了几小时内的一段对话。

这件事让他开始重新理解“科研门槛”。但他也强调，单点模型依然重要。AlphaFold能拿诺奖，是因为它解决了蛋白质结构预测这个核心难题，OpenClaw的价值在于把这些专业工具串联起来，让更多人能用上。AI不会让科研人员失业，而是加速领域发展，提高科研效率。

知识检索：RAG的下一站，记忆整合和安全性的考量

闫宇坤来自清华大学自然语言处理实验室，他研究的是RAG——检索增强生成。

RAG早期像是给大模型打补丁，用来补充实时信息或专业知识。但随着OpenClaw这类Agent框架的出现，用户和AI的交互方式变了：从“一问一答”变成了“派个任务，等结果回来”。

Agent可能需要执行一个持续几小时甚至几天的任务，期间要不断收集信息、整理知识、检索资料。这就要求RAG不再是一次性的检索，而是和长期记忆紧密结合。闫宇坤认为，RAG是检索和使用知识的方法，而Memory是存储和组织信息的架构，两者是互补关系，不是谁替代谁。

他特别提到一个安全隐患：超过22万OpenClaw部署实例暴露在公网，Agent正在大规模“裸奔”。恶意Skill、Prompt注入攻击、API Key泄露——这些问题需要从架构层面解决。他正在做的EdgeClaw，就是要在OpenClaw基础上加入记忆整合和安全性考虑，实现端云协同：强隐私任务在本地执行，普通任务脱敏后调用云端。

系统优化：“闭源模型指挥+开源模型执行”混合模式，要求模型要有技能，也要能交互。

徐遥来自智源研究院系统智能研究组，他关注的是AI底层的计算效率。

他带来的KernelGen，是一个支持多种AI芯片的高性能Triton算子生成自动化工具。用户只需输入功能描述，系统就能自动生成算子、测试正确性、优化加速比——在示例中，加速比达到了原生CUDA版本的1.6倍。

KernelGen https://kernelgen.flagos.io/

这套系统不仅能提升推理速度，还能帮助国产GPU快速适配主流模型。过去适配一个新芯片要花几个月手写算子，现在用AI自动生成，成本大大降低。

徐遥的观点很务实：未来很可能是“闭源模型指挥+开源模型执行”的混合模式。闭源模型负责复杂推理，开源模型在本地执行具体任务，这样既能保证效果，又能保护隐私、降低成本。他还谈到“技能”的涌现——模型要总结出有用的技能，必须足够强大且与环境充分交互。技能和模型能力是螺旋上升的。

圆桌激辩：五条路径的交汇

在主持人李向一的引导下，五位嘉宾围绕几个核心问题展开了交锋。

关于Agent下一轮竞赛对学术的促进，王胤杰认为OpenClaw把RL研究从“玩具环境”拉回到真实世界，会催生新的方法。王文灏补充说，机器人领域的RL已经从模拟器走向真实环境，对算法的鲁棒性和样本效率提出更高要求。
关于OpenClaw离解决真实复杂问题还有多远，嘉宾们普遍认为，OpenClaw本身不是终点，而是“工具箱”。真正解决问题，需要结合垂直领域的专业模型和技能。
关于科研门槛降低后年轻学者该关心什么，李明辰认为应该关注更深层次的科学问题，而非浅显的“数据集微调”。徐遥补充说，系统层面的优化依然有大量问题待解。
关于安全隐患，闫宇坤指出权限管理是当前OpenClaw生态最薄弱的环节。恶意Skill、Prompt注入攻击、API Key泄露——这些问题需要从架构层面解决。

OpenClaw本身不是终点，而是“工具箱”。真正解决问题，需要结合垂直领域的专业模型和技能。

从RL、RAG到具身智能与AI4Science，Agent的进化路径正在被重新定义。OpenClaw作为这场变革的催化剂，让强化学习走出“玩具环境”，让机器人学会自己“练技能”，让科研人员重新理解“科研门槛”，让RAG与Memory深度融合，让算子优化走向自动化。主持人李向一最后说：有人担心AI会让精英和普通人的差距越来越大，但他认为，AI也给了普通人一个快速获取知识、突破认知壁垒的机会。关键在于愿不愿意主动去用这些工具。未来的差距，可能不在于“谁懂的多”，而在于“谁会使用Agent解决问题”。

更多热门论文报告活动

内容中包含的图片若涉及版权问题，请及时与我们联系删除