
知名 AI 研究员、艾伦人工智能研究所(Ai2)后训练主管 Nathan Lambert,长期关注模型开源、强化学习与推理训练。
近期,他在一次为期 36 小时的中国行中,密集走访了智谱、月之暗面、清华、美团、小米、千问等模型实验室,与大量一线 AI 研究员进行了深入交流。
他坦言,中国的 AI 实验室,正在合作共赢。
“中国研究者身上的人情味、魅力和真诚的温暖,能让人彼此理解。美国语境中那种习以为常、带有零和意味的地缘政治叙事,在他们身上几乎看不到太多痕迹。”
基于此,Nathan 写下长文,分享了他此次中国行期间令他印象深刻的观点。

原文链接:https://www.interconnects.ai/p/notes-from-inside-chinas-ai-labs
学术头条在不改变原文大意的情况下,做了简单的编译。如下:
中国研究者的心态
Nathan在文中花了大量篇幅聊了一件事:为什么中国 AI 实验室总能快速追赶上前沿?
他的核心判断是,文化。
他认为,如今做好一个 LLM,拼的不只是某个单点突破,而是从数据、模型架构到 RL 算法的全栈优化。每个环节都可能带来一些提升,但怎样把提升有效叠加、演变成整体能力的跃迁,是一个非常复杂的多目标优化过程。
Nathan 认为,美国不缺聪明人,但做模型不是靠天才研究员各自发力,而是所有人都围绕整体目标协同推进。但这类取舍在美国实验室里,往往容易演变成冲突。Llama 团队动荡的原因,就与内部斗争和路线分歧有关。
据此,他判断:
过强的个人野心,往往会妨碍团队做出最好的模型。
相比之下,中国实验室的一个微妙差异在于:核心贡献者中有大量学生,而这些学生通常以同事身份直接参与核心研发。
这一点对 Nathan 的触动很大。美国最顶尖的几家 AI 公司里,真正让学生深度参与核心模型工作的机会并不多。OpenAI、Anthropic 这类公司基本没有传统意义上的实习体系;中国实验室更年轻,而学生也恰好具备几类适合从事大模型研究的特质:
1.他们更愿意去做那些不显眼、但能提升模型质量的工作。
2.学生最擅长快速学习,更容易适应新技术范式。过去几年 LLM 的关键范式从 Scaling MoE,到 Scaling RL,再到 Agent,每一次转换意味着必须在极短时间内吸收海量上下文,学生恰恰最擅长这个。
3.更少的自我意识,使实验室在团队扩张过程中更容易保持协调。
4.目标直接,专注于把最好的模型造出来。
一位中国研究者在 Nathan 追问时,引用了华裔科技分析师 Dan Wang 那句有名的话:中国是工程师治国,美国是律师治国。
北京的AI生态,很像硅谷
在 Nathan 看来,北京的 AI 生态像极了硅谷:随便走几步路,旁边就是竞争对手的办公室。
一下飞机,他就在前往酒店的路上顺道去了阿里巴巴北京园区。36 个小时内,他依次去了智谱、月之暗面、清华、美团、小米、零一万物。
线下交流中,他问中国的研究者们怎么看待人才争夺,得到的回答是:和美国差不多。
研究人员在不同公司之间流动很常见,很大程度上取决于哪家公司的氛围最好。
但他认为,有一点跟美国很不一样。
在中国,AI 圈更像是彼此合作的生态系统,而不是对立的部落。在私下交流中,他感受到的几乎都是中国研究者对同行的尊重。在美国,研究员之间谈起同行,竞争意味往往很快就会显现出来。即便中国各家实验室都对字节跳动及其豆包模型保持高度关注,整体氛围依然是克制和友善的。
还有一点让他印象很深。许多中国研究者在谈到商业化问题时,往往只是耸耸肩,表示那不是自己关心的重点。相比之下,从数据供应商、算力格局到融资环境,几乎所有美国研究者都对产业趋势保持高度关注。
中国AI产业的真实样貌
以下是 Nathan 和中国 AI 实验室交流后,对中国 AI 产业的判断:
1.AI需求依然旺盛
Nathan 提到,一种常见看法是,中国公司历来不太愿意为软件付费,AI 市场的规模也因此受限。
但他认为,中国一直存在一个规模可观的云市场。未来企业对 AI 的支出可能会更接近云基础设施,而不只是传统软件采购。
尽管 Claude 名义上并不在中国提供服务,很多开发者仍在频繁使用它。这让他相信,中国对推理能力的需求依然旺盛,而且还有很大的增长空间。
2.中国公司坚持技术自研
为什么像美团、蚂蚁集团这样的公司,也会去训模型?
在不少西方观察者看来,这多少令人出人意料。
但在 Nathan 看来,中国公司的想法很直接:既然 LLM 很可能成为未来科技产品的核心能力,底层模型就必须自己掌握。
在强通用模型之上继续微调,对这些公司也有现实意义。Nathan 认为,行业里的开源倾向,本质上是一种务实选择:既能帮助公司获得高质量反馈、持续打磨技术栈,也能回馈社区,并加深对自身模型的理解。
3.数据产业不够成熟
Nathan 提到,Anthropic 和 OpenAI 会为单个训练环境投入上千万美元,甚至为推动 RL 前沿花费数亿美元。也因此,他很好奇,中国实验室是不是也在从美国公司买这些环境,或者已有成熟的数据生态支撑?
他的判断是,中国并不是没有数据产业,但是现阶段整体质量还不够高。大部分实验室的经验是,与其向外采购,不如自己搭建环境、自己生产数据。研究人员往往会投入大量时间制作 RL 训练环境,像字节跳动、阿里巴巴这样的大公司,也会配备内部数据标注团队,为这项工作提供支持。
4.算力不足
中国实验室对英伟达芯片的需求普遍较高。训练场景下,英伟达芯片仍是主流选择,不少研究团队都受到高端算力供给不足的限制。不过,包括华为芯片在内的其他加速器,也在推理场景中获得了一些正面评价。
重新理解中国AI
这趟旅行结束后,Nathan坦言,自己对中国的理解其实才刚刚开始。
他在文中写道,“中国不是能被几条规则概括的地方,而是一个拥有不同化学反应的地方。这里的文化太古老、太深厚,我还有很多东西要学。”他更强烈地意识到,中国有太多特质和直觉,很难直接套进西方熟悉的决策框架里。
他不明白,为什么这些实验室要开源训练出来的模型。
这些实验室不会把每一个模型都无条件公开,但都非常有意愿、支持开发者、扶持生态,并把开源作为解模型的一种方式。
他还观察到,中国几乎每一家大型科技公司都在构建自己的通用 LLM,像美团这样的外卖平台、小米这样做消费电子的公司,也都在发布开源权重模型。这并不是为了在新技术浪潮里刷存在感,而是出于一种更深层的冲动:把技术栈掌握在自己手中。
最后,他也坦言自己有些许焦虑,他希望美国在开放模型领域能够保持领先;同时,他也希望开放生态在全球范围内繁荣,带来更安全、更可及、也更有用的 AI。问题在于是美国实验室是否愿意采取足够的行动,占据那个领导位置。、
归根到底,这说的还是中国的开源文化。
Nathan 写过一句很有画面感的话:每当我从笔记本电脑前抬起头,总能看见地平线上成排的塔吊。
这与中国的开源精神,也是一脉相承的。
*本文仅代表作者观点

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢