
当前,具身智能领域既承载着推动机器人向通用智能进化的机遇,也面临着硬件不成熟、数据短缺等环环相扣的挑战。在这条充满未知的前沿道路上,一批跨领域人才正以创新实践突破瓶颈, 自变量机器人创始人兼 CEO 王潜 便是其中一位背景独特的实践者。
本硕毕业于清华大学,硕士期间,王潜发表的论文,成为神经网络注意力(Attention)机制(Transformer结构的核心)的最早基础之一(第一作者);在 USC(南加大)读博时,他的研究方向是 learning for robot manipulation,包括人机交互和家庭服务机器人等领域。
离开校园后,他从创立量化基金起步,他将端到端量化模型的技术方法论迁移至机器人领域;因 2021 年 ChatGPT 带来的技术变革,他敏锐察觉到解决以往强化学习瓶颈的可能已经出现。为此,他放弃了美国的职业发展路径毅然回国,创立了“自变量”。
这个名字寄托着他的理念。自变量意味着主动改变,英文名X Square中的x正是数学中的自变量符号。他们希望成为影响世界的变量推动变革。
从量化到机器人,在王潜看来,这不仅是技术领域的转换,更是价值追求的根本转变。他认为,量化本质上是一种逐利行为,而机器人事业则关乎人类未来的根本性变革,其意义深远,甚至可能成为人类历史上的关键转折点之一。
带着“成为改变行业与世界的变量”这一愿景,自变量在短短两年间,从默默无闻成长为备受瞩目的科技新锐。创业初期,公司坚持的端到端统一VLA技术路线,虽与当时主流不同并受到过质疑,但他们用扎实的成果迅速证明了这条道路的可行性。面对行业普遍的技术困境,他们保持着开放的姿态:不拘泥于单一方法,而是在确保质量的前提下,积极探索一切可能的突破。
当整个领域在炙热的期待与冷静的质疑中前行时,王潜显得既务实又乐观。他直言:“大家提到泡沫往往持负面态度,因为泡沫终会破裂。但回顾历史会发现,每次大的泡沫破灭后,必然伴随着一批真正伟大的公司成长起来。”
他深信这个行业拥有广阔的未来,技术突破指日可待。而自变量要做的,就是持续走在最前沿,用一次又一次的扎实实践,推动具身智能真正落地生根。以下是本期智源专访的完整内容。
智源专访栏目意在展现行业顶尖技术研究者和创业者的研究经历和故事,记录技术世界的嬗变,激发当代AI从业者的创新思维,启迪认知、关注突破性进展,为行业注入灵感光芒。本次专访为总第32期。
简介:王潜,自变量机器人公司创始人兼首席执行官,2025年11月2日担任中华人民共和国第十五届运动会深圳站火炬手。 王潜本科与硕士毕业于清华大学,南加州大学读博期间,曾在美国顶级机器人实验室从事机器人学习与人机交互研究。作为全球最早在神经网络中提出Attention机制的研究者之一,其成果与Google同期发表于国际会议。2023年12月在深圳创立自变量机器人公司,主导自研的具身智能基础模型WALL-A解决了机器人开放任务操作难题,构建了跨任务共性知识学习框架。目前公司成立两年内完成8轮融资,2025年9月获得由阿里云和国科投资共同领投的近10亿元A+轮融资。为推动具身智能大模型的研究与应用,公司开源其面向开发者的具身基础模型:WALL-OSS,此前发布新一代轮式双臂仿人形机器人“量子2号”,目前已在多步骤复杂任务场景中逐步落地应用。
采访:李梦佳
编辑:李骍怡、陈然
缘起 · 跨界的技术信仰
“从量化到具身:一场方法论‘降维’与价值回归的远征。”
采访者:您的经历始于量化基金创立,想深入听听其中的故事。请问做量化基金与机器人公司之间有哪些异同点?能否谈谈这一过程中的相关经历?
王潜:我认为两者在技术层面高度相通。当时我们做量化基金时构建的是完全端到端的量化模型,这与如今我们研发的端到端具身智能基础模型,实质上属于同一技术栈、同一方向,从这个角度来说,技术路线是一以贯之的。此外,从早期从事机器人强化学习、手部操作研究,到后来转向量化领域,再到如今回归机器人行业,技术发展始终沿着连贯的序列推进。
而且,量化领域的经历给了我许多传统机器人研究中未曾接触的视角与洞见,其中很重要的一点便是如今被称作大模型的方法论。传统机器人研究领域,包括当下几乎所有具身智能公司与机器人企业,采用的其实都是某种意义上的小模型方法论,在数据驱动以及系统、基础设施层面的能力相对滞后。而我在从事量化工作期间,处理过海量数据,与基础设施、系统有着紧密交互,也适应并习惯了这种方法论与工作模式,因此在ChatGPT问世、具身智能进入大模型时代后,相关经验能够实现良好迁移。
两者的不同之处在于,机器人领域的工作远比量化有趣。这确实是一件正在改变人类世界的事,甚至可能是人类有史以来最重大的变革之一。量化基金本质上是盈利行为,当然,若从微观细节来看,量化领域也有其趣味性,但我个人认为量化是一件比较无聊的事情。

图注:王潜图片(图源自变量机器人)
采访者:您于2023年创立自变量,彼时具身智能刚刚兴起,尚未形成如今这般火热的态势。当时回国创立自变量是基于怎样的机遇?如何在行业未大火之时把握到这一方向?
王潜:其实算不上把握风口,因为比我们成立更早的机器人企业有很多。一方面,我当时在美国关注这一波AI的变化,即便在ChatGPT出现之前,就曾思考机器人领域或许会迎来一些不一样的变革。因为GPT - 3当时已经问世,其方法论与以往模型的方法论差异显著,具备了小样本学习的能力。
我当时认为,机器人领域此前一直受数据数量问题制约,这与如今我们所说的数据制约还不相同——以前行业内仍以纯粹的强化学习为主,而强化学习面临的问题是,随着任务难度不断提升,每个任务所需的数据量呈指数级增长,从理论上讲,我们或许无法沿着这条路一直推进到真正意义上的通用人工智能,或是物理世界的通用人工智能。
GPT - 3问世后,情况发生了明显转变,因为它具备了小样本学习能力。我们认为,沿着这条技术路线,有望克服此前强化学习存在的问题。我原本就从事机器人领域的研究,当时便想,或许接下来可以继续深耕机器人领域,机器人行业等待了数十年的金钥匙,其实已经摆在我们面前,那就是如今语言模型所采用的这套方法论,于是便考虑继续投身这一事业。
最初我曾考虑在美国开展这项工作,但后来发现美国的产业基础实在难以支撑这样的项目,因此还是决定回国创业。2023年我回到国内,公司则是在2023年年底成立的。最早产生这个想法,大概是在2021年GPT - 3问世的时候。
采访者:您曾在南加州大学攻读博士,当时为什么没有继续在学术领域发展?
王潜:原因有几个方面。当时通用人工智能,尤其是机器人领域,其实面临着非常实际的障碍,也就是我刚才提到的强化学习问题,当时能明显看出这条路径存在局限。我认为,这件事或许需要三十年、五十年才能有所突破,从这样的时间周期来看,对个人而言,最快的推进方式可能不是一直深耕这个领域,而是先积累足够的财富,之后再反过来资助这个领域。历史上有很多人都这么做过,比如西蒙斯资助数学,一些化学家资助化学领域,梁文锋资助人工智能领域。我当时就是基于这样的思考。但到了2021年,技术变革非常显著,我意识到,或许最短的路径不是先绕一个大圈,而是直接亲自入局,这条路径可能更直接。所以当时选择做量化,以及后来放弃量化,其实都是出于同一个原因,就是始终希望投身人工智能领域。这倒不是在乎赚钱与否,我刚才也提到,量化的生活方式对我来说其实挺无聊的。
采访者:当时做出这个转变,有没有哪些对您影响力比较深远的人或事,成为了这个转折点?
王潜:我觉得倒没有什么特别明显的人和事,但我确实目睹了不少学术界的老师,他们每天要花费大量时间精力申请基金等事务。我当时就想,学术界肯定不是我想要待的地方,我不想过这样的生活,说实话这种状态也难以做出真正改变世界的实质性成果,还会受困于各种因素,无法自由自在地做自己想做的事。所以学术界对我来讲或许不是一个特别理想的地方,资源不足,研究导向也存在问题。后来我觉得,或许还是应该考虑产业界。
采访者:您在清华毕业典礼上的发言提到,“今天基于注意力的Transformer成为大模型核心,但我自己因为离开了这个方向,遗憾地和最重要的结果失之交臂”。这段经历和您刚才所说的情况也是相呼应的,对吗?
王潜:那是更早的事情了。我研究注意力机制是在国内读硕士的时候,当时在微软亚洲研究院实习,同时也在清华读书。我们是最早将注意力机制引入神经网络的团队之一,当时和谷歌第一篇相关论文发表在同一个会议上,那是2014年的事。Transformer是2017年提出的,后来我就转而研究机器人了。所以确实是挺遗憾的一件事,因为当时我们的架构,应该说比谷歌最早所做出的要更接近如今的Transformer,但后来我专注于机器人领域了。
02
破局 · “自变量”的诞生与坚守
“逆势押注端到端:在无人相信时,做唯一的‘变量’。”
采访者:这一点我其实比较好奇,“自变量”这个词的含义是什么呢?
王潜:第一个原因,我们的英文名字叫X Square,其中x在数学里代表自变量。第二个原因是,我们希望自身能成为世界的一个变量,进而改变行业、改变世界。所以我们需要“自变量”所代表的属性——自发主动地去改变一切事物。

图注:机器人“小量”制作冰沙图片(图源深圳新闻网)
采访者:自变量一直坚持端到端统一VLA的路线,曾经可能受到一些质疑,比如是否认可这条路线、是否值得押注,您经历过怎样的思考过程呢?
王潜:最早在2023年公司刚成立时,几乎没人认同这个方向。直到2024年下半年,也依然没人同意。当时大部分同行,大家都在说要做小模型、分离模型、分层模型、专用模型,只有我们提出要做一个大模型,所以没人相信我们。质疑主要来自两方面:一是从技术层面看,这条路线是否可行;二是即便路线可行,是不是该由我们这样的小公司来做。我们那时候融资金额还不算头部(当然现在肯定是了!),但在当时规模还相当小,所以质疑声音很多。
但我们始终秉持一个信念:用实实在在的成果说话。当成果摆在面前,其价值不言自明,任何争论都显得多余。这种务实的行动力,是我们最鲜明的底色。

图注:自变量机器人量子2号设计
03
征途 · 直面具身智能的“黑洞”
“数据、泡沫与落地:解构具身智能的现在与未来”
采访者:从您的视角来看,现在具身智能最迫切需要解决的问题有哪些?面临哪些挑战?以及自变量目前最主要想要攻克的具身智能难题是什么?
王潜:目前各个环节都存在问题。若说某一个最困难的方面,我认为还是数据问题,这也是行业内老生常谈的话题。当然,关于数据的获取方式,行业内有各种各样的思路。有人提出要做仿真;有人认为要大规模建设数据采集工厂,让政府承担这部分成本;也有人觉得要构建数据飞轮,在实际商业场景中落地实现。所以从自变量的角度来说,我们不挑剔、也不拘泥于某一种方式,而是希望能够尝试各种方法,从中筛选出我们认为最可行的部分,也就是每种路线中最合理的环节。这当中的核心点,我也反复强调过,就是我们认为数据质量是至关重要的一环。
采访者:您认为面对机器人硬件的多样性及其任务的复杂性,如何在不同形态的机器人之间实现高效的知识迁移和快速的任务适配?
王潜:我觉得知识迁移这件事难度不小,而且从我们自身的商业模式来看,我们并不是很追求迁移这件事,至少不追求这种快速的无缝迁移。因为相对缓慢的方式,比如针对某一个场景进行后训练的微调,这件事肯定是切实可行的。但就像把人的大脑放到章鱼身上那样,人也无法快速迁移出章鱼的操作能力。所以这种技术路线本身是否值得探索,我觉得尚且是个问号,或许最好的方式还是要做软硬一体,最终给客户提供完整的解决方案即可。
采访者:几乎每天都有机器人公司融资的新闻,我们也听到不同的声音,有人认为资本热度很高,实际落地却未必可期,整个行业有种泡沫的感觉,您如何看待这种声音?
王潜:我认为目前并不存在泡沫。很明显能看到海外公司的估值、融资金额等各方面都比国内高一个数量级。以FigureAI为例,目前估值三百多亿,接近四百亿美金;相比之下,国内行业的泡沫不是多了,而是少了。实际上,任何一个高速发展的行业,没有泡沫肯定发展不起来,如果没有泡沫,大家都变得像日本一样,所有领域都发展不起来,当然也就没有泡沫了,同时也没有了创新和未来的可能性,整个行业就会停滞不前。所以我认为中国目前具身智能行业,乃至整个中国AI行业的泡沫真的不算大,而是太小了。
大家提到泡沫往往持负面态度,因为泡沫终会破裂。但回顾历史会发现,每次大的泡沫破灭后,必然伴随着一批真正伟大的公司成长起来。最典型的就是互联网泡沫破灭后,如今我们所熟知的互联网巨头都在那一波浪潮中崛起。虽然当时造成了一些损失,但后续确实涌现出了各种各样实际的机会。具身智能领域也是如此,目前的投资金额、行业热情我觉得还是不足的,因为对于这种级别的赛道,可能意味着比以往移动互联网、汽车、手机加起来还要更大的市场,所以绝对意义上的投资是不够的。
至于“落地困难”问题,我认为这可能是暂时的现象,而且不会持续太久。我个人判断,2026年我们一定能批量看到具身智能正投资回报率的场景出现。
因为说实话,如今大家给客户提供的价值基本上都是情绪价值,品牌价值,其实也属于情绪价值的一种,还包括资源置换的价值。所以大家难免会有这样的看法,觉得具身智能搞的都是没用的东西,有种“靠政府、靠股市、混钱”的感觉。但我认为到2026年,这种情况会发生非常明显的变化,一定会有正投资回报率的场景跑出来,而且可能不止一个。所以2026年也肯定会是市场格局发生巨大变化的一年。

图注:2025世界机器人大会量子2号发布(图源时代财经)
04
远见 · 创业者的实践哲学
“2026年见分晓:相信实干,无需说服任何人”
采访者:您在创业过程中经历过哪些波折或困难?是如何解决的?
王潜:最大的困难就是大家不信任我们。早期投资我们的投资人,没有一个是因为相信我们能把这件事做出来,更多是觉得这个团队还不错,这个方向似乎切实可行,就算做不成这件事,或许也能做成点别的事。当然到2024年底的时候,情况就完全不一样了,因为我们一直在坚持,而且确实做出了成果,大家也看到这条路线是正确的。我们刚开始融资的时候,现在和我们差不多处于同一梯队的公司,当时规模比我们大很多,但我们还是能很快追上来。
尤其在这样一个竞争激烈的赛道中,能够实现从后发到领先的跨越,我认为是十分罕见的。至少在我们所处的领域里,目前我们是唯一做到这一点的团队,这确实让我感到自豪。这一切并非依赖特殊的资源扶持,也不是凭借任何外部背书,而是因为我们实实在在地把事情做成了、做出来了。
采访者:对于那些不太相信机器人的人,您会如何向他们推介?
王潜:我觉得说服是徒劳的。大部分人只有当你把实物实实在在摆在他面前时,才会相信。这也是没办法的事,市场的演化本就存在一些不完善之处,所以大多数时候,你只能将成果真正做出来放在他们眼前,他们才会信服。
采访者:高校里做算法的人,现在很多人都想创业,如果他们还想入局创业,您有哪些建议?目前这个阶段再去入局,是不是一个好时机?
王潜:现在显然不是创业的好时机。除非能一次性融到两三亿美金,但这种机会太少了,而且往后入局门槛可能会越来越高。我认为到明年年终时,如果不能一笔融到五亿美金,或许都很难开展这个事业。而在天使轮就融到这么大的规模,可能性确实不大。如果无法一次性融到足够资金,很明显的问题就是技术上落后、资本上也落后,那凭什么和前面的竞争对手去竞争?这是非常现实的问题。随着时间推移,入局门槛必然会越来越高,我觉得现在已经高到不太现实的状态了,除非是真正特别资深的院士这类级别的人下场,或许还有可能,其他人确实不太可能。
采访者:您觉得跟智源这样处于中间态,既不完全是商业化,也不完全是高校的一个科研机构来讲,未来有没有合作的空间?
王潜:我觉得可以合作的空间还是挺大的,正如在前段时间的具身OpenDay上提出,我们也参加了RoboChallenge,智源给大家提供一个可以公平地互相比较的平台。我们自己也在做开源生态,其实我觉得双方在各种各样的领域都可以有很多有效的合作,包括更深入的学术合作,我们也在探讨当中。

哈佛Yilun Du专访:世界模型三问 —— 因果、规划与泛化的征途丨智源独家
内容中包含的图片若涉及版权问题,请及时与我们联系删除



评论
沙发等你来抢