Agent正从实验室的构想加速走向产业实践的前沿。从单一大模型的“单兵作战”到多智能体系统的“兵团协作”,从封闭环境的有限探索到开放生态的无限可能,智能体正在经历一场前所未有的“模块重组”,其进化路径正在被重新定义。智源Workshop第33期特邀五位深度参与这场变革的学术工作者和探索者,从五个不同方向——强化学习、具身智能、生命科学、知识检索、系统优化——他们围绕着OpenClaw的开源框架,展开了一场关于Agent进化路径的深度对话。本文为Workshop文字稿,小龙虾辅助撰写。


强化学习:OpenClaw-RL让AI在真实对话中持续进化,过程比结果更重要,越用越强

王胤杰来自芝加哥大学,在普林斯顿王梦迪工作组做强化学习。他带来了OpenClaw-RL的框架,核心思路很直接:让Agent在真实对话中进化。

过去做强化学习,大家习惯了在模拟器里“玩游戏得分”——环境可控,反馈明确,一轮交互短则几秒,长也不过几分钟。但王胤杰认为,Agentic AI正在把RL拉回一个更复杂的世界:Agent要和真实用户打交道,要处理模糊的反馈,要在一场可能持续几小时的对话中不断调整自己。

他举了两个例子。一个是学生用AI写作业,希望答案既正确又不那么“AI味”——不要加粗,不要标号,不要“Final Answer”这种模板。另一个是老师用AI改作业,希望批语既具体又友善。经过几十轮交互,AI的输出风格真的变了。这种变化不是靠更多的算力,而是靠一种混合训练方法:把“好/坏”的二值反馈和用户的具体纠正结合起来,让模型在真实使用中持续进化。

王胤杰表示,过程奖励模型会变得越来越重要。不仅要看最终结果,还要看中间步骤做得对不对。这是一个很务实的判断——真实世界里,结果往往不是唯一的裁判。

具身智能:龙虾的硬壳与软肋,不能只靠一个大模型“端到端”地输出动作

王文灏来自智元机器人,他和上海交大穆尧团队合作的RoboClaw项目,是国内首个以OpenClaw为“大脑”的具身智能系统。

他讲了一个有趣的比喻:龙虾。机器人看似有硬壳保护,其实内部很脆弱。放进真实环境——厨房也好,实验室也罢——环境的多变性、任务的泛化性、硬件的可靠性,每一个环节都可能让它“卡壳”。

RoboClaw的解法是:让机器人自己练技能。他们把任务拆解成“前向执行”和“逆向恢复”两步,机器人先尝试做某个动作,如果失败,就执行一个专门训练的“环境恢复策略”把场景复原,然后重新尝试。这样一来,机器人可以反复自己练习,大大减少人类遥控的成本。

这套思路背后有一个观点:不能只靠一个大模型“端到端”地输出动作。真正让机器人走进家庭和工厂的,是把复杂任务拆解成可复用的技能,让Agent框架去高效地组织这些技能。机器人的学习会越来越像人类:在尝试中犯错,在犯错中学会恢复。

把复杂任务拆解成可复用的技能,让Agent框架去高效地组织

AI4S生命科学:OpenClaw重新理解“科研门槛”,价值在于把这些专业工具串联起来

李明辰是上海交大洪亮课题组的博士后,他用OpenClaw做了一件听起来很科幻的事:设计蛋白质。

他在实验室部署了一套三层架构:用户通过飞书或钉钉下达指令,OpenClaw接收指令后连接GPU集群,调用AlphaFold、分子动力学模拟等专业软件,最终输出设计好的蛋白质。这套系统已经产出了几个实打实的成果:耐碱蛋白酶打破了国外垄断,PET塑料降解酶正在推进产业化,长效尿酸酶在小鼠实验中效果显著。

但李明辰最想讲的不是这些成果,而是一次个人经历。他用OpenClaw跑了一次分子动力学模拟——从环境安装、参数配置、轨迹运行,到后续分析与结果输出。过去可能需要数周甚至数月才能掌握的技能,被压缩成了几小时内的一段对话。

这件事让他开始重新理解“科研门槛”。但他也强调,单点模型依然重要。AlphaFold能拿诺奖,是因为它解决了蛋白质结构预测这个核心难题,OpenClaw的价值在于把这些专业工具串联起来,让更多人能用上。AI不会让科研人员失业,而是加速领域发展,提高科研效率。

知识检索:RAG的下一站,记忆整合和安全性的考量

闫宇坤来自清华大学自然语言处理实验室,他研究的是RAG——检索增强生成。

RAG早期像是给大模型打补丁,用来补充实时信息或专业知识。但随着OpenClaw这类Agent框架的出现,用户和AI的交互方式变了:从“一问一答”变成了“派个任务,等结果回来”。

Agent可能需要执行一个持续几小时甚至几天的任务,期间要不断收集信息、整理知识、检索资料。这就要求RAG不再是一次性的检索,而是和长期记忆紧密结合。闫宇坤认为,RAG是检索和使用知识的方法,而Memory是存储和组织信息的架构,两者是互补关系,不是谁替代谁。

他特别提到一个安全隐患:超过22万OpenClaw部署实例暴露在公网,Agent正在大规模“裸奔”。恶意Skill、Prompt注入攻击、API Key泄露——这些问题需要从架构层面解决。他正在做的EdgeClaw,就是要在OpenClaw基础上加入记忆整合和安全性考虑,实现端云协同:强隐私任务在本地执行,普通任务脱敏后调用云端。

系统优化:“闭源模型指挥+开源模型执行”混合模式,要求模型要有技能,也要能交互。

徐遥来自智源研究院系统智能研究组,他关注的是AI底层的计算效率。

他带来的KernelGen,是一个支持多种AI芯片的高性能Triton算子生成自动化工具。用户只需输入功能描述,系统就能自动生成算子、测试正确性、优化加速比——在示例中,加速比达到了原生CUDA版本的1.6倍。

KernelGen  https://kernelgen.flagos.io/

这套系统不仅能提升推理速度,还能帮助国产GPU快速适配主流模型。过去适配一个新芯片要花几个月手写算子,现在用AI自动生成,成本大大降低。

徐遥的观点很务实:未来很可能是“闭源模型指挥+开源模型执行”的混合模式。闭源模型负责复杂推理,开源模型在本地执行具体任务,这样既能保证效果,又能保护隐私、降低成本。他还谈到“技能”的涌现——模型要总结出有用的技能,必须足够强大且与环境充分交互。技能和模型能力是螺旋上升的。

圆桌激辩:五条路径的交汇

在主持人李向一的引导下,五位嘉宾围绕几个核心问题展开了交锋。

  • 关于Agent下一轮竞赛对学术的促进,王胤杰认为OpenClaw把RL研究从“玩具环境”拉回到真实世界,会催生新的方法。王文灏补充说,机器人领域的RL已经从模拟器走向真实环境,对算法的鲁棒性和样本效率提出更高要求。

  • 关于OpenClaw离解决真实复杂问题还有多远,嘉宾们普遍认为,OpenClaw本身不是终点,而是“工具箱”。真正解决问题,需要结合垂直领域的专业模型和技能。

  • 关于科研门槛降低后年轻学者该关心什么,李明辰认为应该关注更深层次的科学问题,而非浅显的“数据集微调”。徐遥补充说,系统层面的优化依然有大量问题待解。

  • 关于安全隐患,闫宇坤指出权限管理是当前OpenClaw生态最薄弱的环节。恶意Skill、Prompt注入攻击、API Key泄露——这些问题需要从架构层面解决。

OpenClaw本身不是终点,而是“工具箱”。真正解决问题,需要结合垂直领域的专业模型和技能。

从RL、RAG到具身智能与AI4Science,Agent的进化路径正在被重新定义。OpenClaw作为这场变革的催化剂,让强化学习走出“玩具环境”,让机器人学会自己“练技能”,让科研人员重新理解“科研门槛”,让RAG与Memory深度融合,让算子优化走向自动化。主持人李向一最后说:有人担心AI会让精英和普通人的差距越来越大,但他认为,AI也给了普通人一个快速获取知识、突破认知壁垒的机会。关键在于愿不愿意主动去用这些工具。未来的差距,可能不在于“谁懂的多”,而在于“谁会使用Agent解决问题”。



更多热门论文报告活动

内容中包含的图片若涉及版权问题,请及时与我们联系删除