“终端智能体与OpenClaw”和“AI自进化”论坛现场

2026年6月12日下午,第8届智源大会两场有关Agent研究最前沿的论坛在中关村国际创新中心海慧厅A/B相邻的两个报告厅火热召开。


终端智能体与OpenClaw”论坛重点讨论了大模型智能体如何获得真实执行能力:通过Harness连接模型、工具、环境、记忆、符号结构、安全沙箱和端云系统,使Agent从一个会响应指令的语言模型,变成能够在终端和组织中持续完成任务的执行系统;


AI自进化”论坛则进一步追问Agent的成长机制。该论坛围绕 “Agent 如何从一次次交互、失败、探索和反馈中形成记忆、规则、世界模型与学习能力”展开。


两扇门之间,恰好反映出当下Agent技术最重要的两个研究趋势:它正从“能执行、会调用工具的助手”,走向“能学习、在世界中持续成长的系统”。这两场论坛,把 Agent 的两面放在同一个时代剖面中观察:一面是它如何进入社会的毛细血管,成为新的生产力接口;另一面是它如何不再只是被人训练好的静态模型,而是在环境中形成持续学习的闭环。前者关乎产业入口,后者关乎智能演进本身

编辑:宇轩 梦佳


终端智能体与OpenClaw:Agent 正在成为新的操作层

论坛主席、清华大学计算机系教授刘知远在开场致辞中,首先把这场论坛投影到智源大会连续多年关注智能体的历史中。他指出,Agent已经从几年前还略显前沿的学术概念,变成大模型赋能千行百业的重要技术形态。而OpenClaw即便未必是最终平台,也以一种标志性方式宣告了大模型正在从云端聊天助手进入工作场域。所谓“终端智能体”,核心正是让智能体在社会的毛细血管、行业现场和各种终端上发挥作用。

清华大学计算机系教授刘知远

开场致辞后,中国人民大学高瓴人工智能学院林衍凯作了题为《从OpenClaw看智能体技术发展趋势》的报告,上海交通大学人工智能学院钱忱作了题为《Organization Model:让组织变得可生成》的报告,清华大学智能产业研究院李元春作了题为《Mobile Agent Harness》的报告,南京大学智能科学与技术学院郭兰哲作了题为《Neuro-Symbolic Agent:从反应式决策到可验证决策》的报告,CAMEL技术负责人范文栋作了题为《Environment is the Missing “Data” for Agents》的报告,网易有道首席科学家段亦涛作了题为《AI原生战略下的Agent产品思考与实践》的报告,百度搭子DuMate产品总架构师李景秋作了题为《从能聊能力:让智能体拥有超级执行力》的报告,腾讯云资深产品专家汪晟杰作了题为《Work Buddy思考与实践》的报告。随后智源研究院院长王仲远与刘知远教授共同发布了「智源-面壁联合加速器」。

从聊天框到操作系统:OpenClaw 的路标意义

刘知远在开场中指出OpenClaw的历史意义不在于它是否会一直流行,而在于它标志着大模型智能体从云端聊天助手进入工作场域。林衍凯进一步把这个判断展开:OpenClaw并没有在基座模型预训练、后训练或推理优化上创造核心突破,它真正做的是系统集成,把模型、Skill、记忆、接口和用户入口组织到一起。

这恰恰是它值得被讨论的地方。很多划时代的技术节点,并不是因为它发明了全部底层技术,而是因为它第一次把分散能力组织成一种可被大众感知的形态。浏览器并没有发明互联网,却定义了普通人进入互联网的方式;OpenClaw之于Agent,也有类似意义。它把模型能做什么转译成用户如何让模型替自己做事,也把行业问题从模型能力推进到协议、运行时、工具生态和入口定义权。

因此,这场论坛真正关心的是谁会定义Agent时代的操作层”。未来的Agent研究,要重点关注“谁来管理模型调用,谁来调度工具,谁来存储记忆,谁来连接设备,谁来划定安全边界,谁来成为用户的默认入口

Harness 的黄金时代:模型之外的工程学

如果说OpenClaw提供了一个时代样本,李元春的报告则给出了更清晰的工程语言:Agent = Model+Harness。模型负责泛化能力,Harness负责把能力拴到真实任务、真实环境和真实约束中。到了终端智能体这里,Harness甚至比模型更接近产品成败的分水岭。

原因很简单:Coding Agent之所以进展快,是因为代码世界有大量训练数据、清晰执行环境和可验证奖励GUI AgentMobile Agent、多模态端侧Agent面对的是更混乱的现实界面。手机APP的状态、按钮、页面跳转、权限、账号和用户数据,都不是一个通用语言模型天然理解的。于是,李元春团队试图用APP知识库、自动探索、状态转换图、合成环境和脚本化交互,为端侧模型补上一层环境记忆

这使Harness不再只是prompt、工具或脚手架,而成为一种新的应用工程学。它既要提高成功率,也要降低成本,还要承担安全、隐私、权限和沙箱隔离。端侧Agent能不能真正进入每个人的设备,取决于模型,也取决于这套模型之外的工程结构能否足够细密、可靠、便宜。

从个人助手到可生成组织:多智能体的社会想象

钱忱的报告把讨论从一个Agent如何完成任务推向了多个Agent如何生成组织。在他看来,AI过去学会了生成语言、图像和世界模型,下一步也许要学会生成组织。好的大学、公司、研究院之所以稀缺,并不只是名额少,而是创建和运行成本高;如果组织的教学、管理、决策、研发、测试、辅导等职能都能被Agent化,那么组织本身就可能成为一种按需生成的软件。

这个视角把多智能体研究从workflow工程推向了组织科学。真正的组织不是把几个Agent串成流水线,而是有角色、协议、反馈、信用分配和演化机制。TeachMasterAgentic University的案例说明,教育场景已经开始出现这种组织化Agent”的雏形:对外看,它像一个AI教师或一所AI大学;对内看,它是一组可分工、可协作、可积累反馈的智能体组织。

这条主线的重要性在于,它扩展了Agent的想象边界。Agent不只是替个人写代码、做PPT、查资料,它也可能重构教育、研发、企业培训、创业孵化等社会功能。

走向真实世界:可验证、环境和产品闭环

越靠近真实世界,Agent越不能只靠流畅表达取胜。郭兰哲从神经符号角度指出,语言驱动的Agent仍然面临可靠性、安全性和可验证性问题。一个skill如果只是自然语言脚本,就很容易在环境变化时失败;它需要状态判断、变量绑定、控制流、失败修复和可执行图结构。换言之,经验必须被压缩成可操作、可泛化、可组合的符号结构。

范文栋则从CAMEL的开源实践指出,EnvironmentAgent缺失的数据。没有可规模化、可验证、可训练的环境,Agent就没有办法形成真正的长程能力和强化学习闭环。环境不只是测试场,也是训练数据的来源、reward的载体和能力演化的土壤。

段亦涛、李景秋和汪晟杰则把这些问题带回产品现场。教育Agent要围绕业务目标而不是论文benchmark优化;超级执行助手要把能聊变成能力Work BuddyAgentOS要处理端云协同、沙箱、审计、记忆分层、多设备调度和企业数据归属。到论坛最后发布智能体+硬件创新加速孵化器,这条故事线变得更加完整:Agent的下一站,不只是软件产品,而是与硬件、终端、创业生态和产业资源相互绑定的新入口。

AI自进化:Agent 正在寻找自己的学习闭环

论坛主席诸葛鸣晨博士在开场中,先为“AI自进化划定了问题边界。在他看来,一个程序能够读取自身状态、修改自身,并证明下一版本优于上一版本,才构成理想意义上的recursive self-improvement。但在真实工程中,这一证明往往退化为经验式闭环,即通过生成候选、运行benchmark、筛选更优版本来迭代。同时,2025年前后模型代码能力和智能体能力达到超越顶级人类工程师的临界点,进一步促使RSI从思想进入更可操作的工程阶段。

在诸葛鸣晨博士的开场致辞后,Meta资深研究科学家刘泽春作了题为《Scaling Down: Optimizing Foundation Models for Edge Deployment》的报告,英伟达研究院科学家张少坤作了题为《Recursive Self-Learning through Scalable Agentic Experience》的报告,NeoCognition联合创始人谷雨作了题为《The Illusion of Self-Improving Agents》的报告,西湖大学人工智能系特聘研究员林涛作了题为《面向自进化统一多模态模型:少步生成与智能体式理解》的报告,前腾讯混元Frontier专家研究员王琰作了题为《Empowering LLMs with More Agency: From Context Engineering to Self-Engineering Architectures》的报告,布里斯托大学助理教授杨梦月围绕强化学习、因果发现、因果推断与世界模型作了报告,厦门大学人工智能研究院副教授郑侠武围绕科学测量和验证抽象与推理能力作了报告。最后,华中师范大学人工智能教育学部助理教授熊宇轩主持了题为觉醒与进化:AI如何自我迭代?的圆桌讨论。

如果说OpenClaw论坛关心Agent如何拥有身体和入口,那么AI自进化论坛关心的是Agent如何拥有成长能力系统完成单次任务的能力固然重要,但更重要的是它在完成任务之后是否变得更强:是否更懂环境,是否记住失败,是否形成规则,是否知道下一次该怎么探索。

试错必须足够便宜:自进化的算力前提

刘泽春从压缩、量化和边缘部署讲起,看似离自进化的宏大命题较远,实则触及了它的底层条件。递归学习需要大量iteration,如果每一次试错、评估和更新都昂贵,自进化就只能停留在概念里。

她关于量化模型、低比特训练、数据选择和edge deployment的讨论,把RSI带回工程现实:一个会自我改进的系统,首先要承担得起反复改进的成本。更小、更快、更稳的模型不仅意味着更便宜的部署,也意味着更多轮反馈、更频繁的更新,以及更可能发生在端侧和隐私保护场景中的个性化学习。

经验从哪里来:Rollout、沙箱与强化学习基础设施

张少坤把Self-evolving Agent拆成两个特性:递归式自迭代,以及从自身探索经验中学习。早期AgentOptimizerAgent观察自己的promptworkflowtools,并根据环境反馈修改自身结构。而ProRL Agent Server则把问题推进到基础设施层面,如果Agent要通过强化学习获得能力,就必须能够在大量环境中并行rollout,收集长程、多轮、工具调用轨迹。

:英伟达研究院科学家张少坤

这让自进化从一个算法命题变成了系统命题。普通语言模型的训练循环已经复杂,而Agentrollout还要启动沙箱、执行工具、处理文件、跑代码、计算reward、合并trajectory。训练循环和Agent执行循环如果纠缠在一起,研究者很难扩展。因此,张少坤强调把RL trainerAgent rollout loop解耦,让不同harness、不同推理引擎、不同任务环境可以接入同一套经验采集基础设施。

自进化不是模型自己想一想就变强,而是要有一整套经验的生产系统。没有可规模化拓展的探索,就没有足够多的失败。没有足够多的失败,就没有可学习的边界。没有可学习的边界,就谈不上真正的自我改进。

记忆不是堆上下文:从经验到结构

谷雨的报告给自进化热潮泼了一盆必要的冷水。他认为,许多self-improving Agent只是把新memoryskill放进prompt里,让模型下次参考,这并不等于真正学习。学习的本质是memory update,而memory要解决三个问题:如何表示,如何可靠更新,如何在执行中被真正使用。

这一区分非常关键。Markdown skill有语言抽象,但缺少结构;向量数据库容易append,却不做压缩;模型权重压缩率高,却面临持续学习和在线更新的困难。真正有价值的记忆,应当把经验压缩成可复用的概念、规则、图结构、决策树、workflow或参数变化,并且在执行失败时形成闭环。

王琰的报告从另一个角度呼应了这个问题。他讨论主动context管理、reward-free self-evolutionworld knowledge,试图让Agent在未知下游任务前先探索环境、形成可复用知识,而不是每次任务都重新读完整个世界。他进一步提出FlashMemory类机制,试图降低长上下文推理成本。两者共同说明:自进化的关键不是记得更多,而是把经历转化为结构

世界模型、因果与抽象:如何避免伪进化

林涛把自进化闭环描述为understandingimaginationactingfeedback。一个Agent要成长,必须理解当前状态,想象可能未来,在环境中行动,并用反馈修正自身。如果想象太贵,多轮rollout就只会停留在demo;如果想象与现实不一致,就必须通过真实环境反馈修正模型。

杨梦月进一步把理解世界推进到因果层面。在开放世界中,Agent无法穷举所有数据,也无法只靠相关性做安全决策。它需要因果世界模型,知道哪些关系是真正的干预关系,哪些只是表面共现。更重要的是,Agent要学会向环境提问:当现有因果理解不确定时,主动设计探索,观察反馈,更新world understanding

郑侠武则从抽象和推理评测切入,指出人类文明进化的核心,是从经验中抽象规律,再把规律迁移到新问题。对AI自进化而言,危险恰恰在于模型可能只学到了表象,而没有学到规律;它可能在benchmark上进步,却在真实迁移中停滞。由此,自进化的核心科学问题浮现出来:我们如何判断一个Agent是真的学会了规律,而不是学会了投机?

如今,研究者开始讨论模型上线后如何在交互中形成记忆、构建环境、发现边界、设计探索、更新评价标准,并最终把外部经验转化为内部能力。Agent的核心能力正在task solving走向learning how to learn

觉醒与进化:AI 如何自我迭代?

AI自进化论坛的圆桌主题是觉醒与进化:AI如何自我迭代?,由华中师范大学人工智能教育学部助理教授熊宇轩主持。

参与讨论的嘉宾包括NeoCognition联合创始人兼Head of Research谷雨,西湖大学人工智能系特聘研究员林涛,前腾讯混元Frontier专家研究员王琰,以及布里斯托大学助理教授杨梦月。与会嘉宾分别具备“语言智能体、世界模型、无奖励自进化、因果强化学习和模型训练”等不同的学术背景,不断追问:什么才算自我改进?它发生在哪里?谁来评估它?谁来约束它?人又会在这个过程中变成什么?

:圆桌讨论“觉醒与进化:AI如何自我迭代?什么才算真正的自进化?”

自进化成为一个越来越高频的概念,最需要警惕的反而是它被泛化成所有性能提升的统称:只要指标上涨,就被称为进化;只要系统会反思,就被称为自我改进。因此,圆桌首先需要澄清的是,怎样的改进才配得上自进化这个词。

针对这一问题,谷雨认为,self-improving至少包含两个维度:一是Agent是否知道自己缺什么、该学什么、什么时候学;二是具体如何实现可靠学习。前者决定学习目标是否由系统自身发现,后者决定学习过程是否真的有效。

王琰则提出更尖锐的区分。他认为,很多所谓self-evolution,其实只是人类追问的evolution”。如果训练时已经预设了下游任务、reward和评价方式,那么系统确实可能进步,但还不能轻易称为真正的自进化。更困难的情况是,Agent不知道未来任务是什么,也没有显式奖励,却仍然能够主动探索环境,形成对未来任务有帮助的world knowledge

这让圆桌讨论越过了指标涨了多少的层面。真正的自进化不是简单的性能提升,而是系统是否能生成自己的学习问题,识别自己的知识边界,并找到下一步探索的方向。

外脑、内脑与记忆的迁移

如果自进化不是一句口号,那么它必然要落在某种可更新的载体上:是prompt在变,工具在变,harness在变,还是模型参数本身在变?这背后其实是在追问一个更深的问题:Agent外脑内脑如何相互转化。

针对这一问题,谷雨提出一个统一视角:harnesstools和模型权重都可以看作长期记忆,只是层级不同。Harness更像元级记忆,工具更像过程知识,模型参数则是更内化、更压缩的长期记忆。

林涛从模型训练角度补充,harness中的经验可以先影响post-training,得到更强模型。更强模型又可以反过来影响基模训练,形成不同尺度上的闭环。杨梦月则把过程拆成forward designbackward updatememory/skill的沉淀。“Agent如何产生trajectory”,“如何利用reward更新经验”,“如何把中间知识沉淀为规则、skillcausal knowledge”,都可能成为自进化发生的位置。

因此,未来的自进化不会只有prompt”改参数两种选择。更可能出现的是外部工具、执行轨迹、环境知识、结构化记忆和模型参数之间的连续迁移。“外脑”可以帮助系统行动,行动产生经验,经验沉淀为结构,结构再被内化为能力。

会进化的系统如何被评测?

当评测对象是一个静态模型时,benchmark可以像一张试卷;但当评测对象是一个会学习、会适应、甚至可能会利用评价漏洞的Agent时,试卷本身也会被卷入进化过程。于是,评测不再只是测得准不准,而是要回答:如何衡量一个系统的学习过程,而不仅是某一刻的能力存量。

针对这一问题,杨梦月提出增长式、动态式benchmark的必要性:环境应当随Agent能力逐步升级,像训练一个炒菜机器人一样,从简单场景逐步增加调料、遮挡、变化和不可见因素。

王琰对自动化评测保持怀疑。他提醒,复杂工作流中的很多失败,可能只有线上数据和人类评测能真正发现。谷雨则提出一个更本质的转向:self-improving的评测不能只看最终分数,而要看学习曲线。横轴是做过多少任务,纵轴是能力表现;关键不是某一刻会什么,而是经验增加后是否持续变好。

林涛进一步把智能定义为单位时间内能力增长速度。如果智能不只是能力存量,而是能力增长率,那么评测也必须从结果评测转向过程评测,从模型掌握了什么转向模型如何掌握。此外,林涛认为,短期内最有可能实现的动态评测是有人参与的半自动化评测。

安全、可控与人的共同进化

只要讨论自进化,就无法回避一个不那么轻松的问题:一个越变越强的系统,是否也可能越变越不可控?更进一步说,当AI开始改变人的工作方式、学习方式和判断方式时,人的能力结构是否也会被重新塑造。

针对这一问题,王琰给出了悲观判断:行业激励更偏向能力加速,而较为忽视安全克制。林涛因此强调,动态benchmark和自进化过程仍需有人参与,至少要提供人类定义的边界。杨梦月从可信AI的角度指出,白盒、因果解释和可见决策过程很重要;如果不知道系统为什么做出决策,就很难谈控制。谷雨则把短期可控性落到两个更具体的词:可靠性和可验证性。可靠性意味着这次做对,下次也要做对;可验证性意味着做错时,系统要知道自己错了。

当讨论进一步推向人本身,杨梦月观察到,基础扎实的人更能驾驭AI工具,基础薄弱的人反而容易被大量输出误导。王琰担心AI会减少年轻人真正理解问题的训练机会,让他们更快完成任务,却更慢建立全局理解。谷雨则给出一个更开放的判断:如果AI仍被视为工具,人和工具会共同演进;但如果AI不只是工具,而是接近一种平等甚至更高阶的存在,问题就会进入更深的哲学和社会层面。

在本场圆桌讨论中,嘉宾们针对“AI自进化这一议题表现出了“谨慎的乐观”,重点讨论了四个绕不开的问题:自进化的主体性、记忆的内化路径、评测的动态化,以及人类如何在系统变强时仍保有理解、约束和共同成长的能力。

结语:Agent 正从自动化工具变成生命史

如今,Agent不再只是一个模型的外壳,也不只是一个自动化工具,而是在形成自己的生命史。所谓生命史,指的是是一个成熟Agent系统将有自己的诞生环境、身体接口、记忆结构、任务经历、组织关系、学习曲线、错误修复机制和治理约束。

OpenClaw论坛讨论的是Agent的身体和社会位置:它在哪里运行,如何接入终端,如何调用工具,如何跨设备,如何组织协作,如何进入教育、办公、研发、硬件和企业系统。AI自进化论坛讨论的是Agent的学习和成长机制:它如何压缩经验,如何构建世界模型,如何探索环境,如何更新记忆,如何评估自己是否真的进步。前者让Agent“活在世界里,后者让Agent“在世界中成长

如果说2023年的Agent热潮证明了大模型可以调用工具,2024-2025年的Agent产品证明了它可以完成更长任务,那么2026年智源大会这两场论坛呈现的趋势是:Agent开始从工具使用者走向环境参与者,从任务执行器走向持续学习体,从聊天入口走向新操作层这正是当下Agent发展的真正拐点

大会回放 https://2026.baai.ac.cn

内容中包含的图片若涉及版权问题,请及时与我们联系删除