Lex Fridman 播客:关于 DeepSeek(全程五⼩时)
- DeepSeek 导读
Lex Fridman(莱克斯 · 弗⾥德曼)是麻省理⼯学院(MIT)的⼈⼯智能研究员、播客主持⼈及多
领域跨界专家。他出⽣于俄罗斯莫斯科,拥有计算机科学博⼠学位,研究⽅向涵盖深度学习、⾃
动驾驶、⼈机交互等,并在 MIT 教授相关课程。他因⾼质量的访谈播客和极端的⾃律⽣活⽅式⼴
受关注,曾采访过埃隆 · ⻢斯克、扎克伯格等科技界领袖,同时也是巴⻄柔术⿊带选⼿和⾳乐爱
好者。
关于他讨论中国 AI 公司 DeepSeek 的播客(第 459 期),主要内容聚焦于以下⼏点:
- DeepSeek 的技术突破
重点分析了 DeepSeek 的开放权重模型 R1 和 V3,指出其通过混合专家模型(Mixture
of-Experts)和 “多头潜在注意⼒” 架构显著降低了训练与推理成本,同时保持⾼性能。
对⽐ OpenAI 同期发布的推理模型 o3-mini,Lex 指出 DeepSeek R1 以⼗分之⼀的成本
实现了同等性能,并认为其开放透明性为⾏业树⽴了新标杆。
- 成本与地缘影响
DeepSeek 的低成本得益于硬件优化(如⾃研计算集群)和算法创新,这对全球 AI 竞争
格局产⽣冲击,尤其在中美技术博弈背景下,开放权重模型可能削弱⻄⽅在 AI 领域的传
统优势。
播客还讨论了 GPU 出⼝管制、台积电在芯⽚制造中的⻆⾊,以及 AI“技术冷战”的可能
性。
- 未来展望
Lex 与嘉宾探讨了通⽤⼈⼯智能(AGI)的时间线,认为 DeepSeek 的低成本路径可能加
速技术落地,但需警惕过度⾃主化系统的⻛险。
Lex 在社交平台评价称,“DeepSeek 时刻” 将成为技术突破与地缘博弈交织的历史性事件。该播
客完整版可通过 Lex Fridman 官⽹ 或中⽂翻译平台(如⼩宇宙 FM)获取。
Lex Fridman 是我⾮常喜欢的博客主,恰好⼜做了我们 DeepSeek 的⼀期节⽬,兴趣驱动花
费 6 ⼩时 + 200 元独⽴实现了视频转翻译⽂稿过程,精⼒有限,正⽂内容⽆法做到⼈⼯校
对,还请⻅谅。如果对您有帮助,还望多多打赏多多⽀持,后续可以带给⼤家更多⾼质量内
容!
本⽂⼯作流:
视频转⾳频:- yt-dlp/yt-dlp: A feature-rich command-line audio/video downloader
⾳频转⽂本: AssemblyAI | Home翻译: 讯⻜⽂档翻译 - 上传 PDF/Word/Excel/PPT
格式化: vinta/pangu.js: Paranoid text spacing in JavaScript
编辑: Obsidian - Sharpen your thinking
排版: 墨滴 | 看颜值的⽂章社区
本⽂代码存档: MarkShawn2020/2025-02-03_lex-fridman-deepseek: Lex Fridman 关于
DeepSeek 播客代码库
全⽂⽬录:
- DeepSeek 导读
- 背景介绍
- DeepSeek-R1 and DeepSeek-V3
- 低成本训练
- DeepSeek 计算集群
- 对中国的 GPU 出⼝控制
- AGI 时间线
- 中国的⽣产能⼒
- 美中冷战
- 台积电与台湾
- 最好的 AI GPU
- 为什么 DeepSeek 这么便宜
- 间谍
- 审查制度
- Andrej Karpathy 与强化学习
- OpenAI o3-mini vs DeepSeek R1
- 英伟达(与它的股票)
- GPU Smuggling(⾛私)
- 蒸馏:DeepSeek 基于 OpenAI 的数据进⾏训练
- AI Megaclusters(巨型集群)
- 谁是 AGI 的最后赢家
- AI Agents
- AI 与编程
- 开源
- Stargate (OpenAI 星际之⻔)
- AI 的未来01. 背景介绍
Lex Frdiman: 以下是与 Dylan Patel 和 Nathan Lambert 的对话。
Dylan 经营着 SemiAnalysis,这是⼀家备受尊敬的研究和分析公司,专注于半导体、GPU、
CPU 和⼈⼯智能硬件。Nathan 是艾伦⼈⼯智能研究所(Allen Institute for AI)的⼀名研究科学家,也是⼈⼯智能博
客 “互联”(Interconnect)的作者。他们都受到⼈⼯智能领域的专家、研究⼈员和⼯程师的⾼度尊重、阅读和聆听。就个⼈⽽⾔,我
只是他们两个的粉丝。因此,我利⽤这⼀震撼⼈⼯智能世界的深度探索时刻,作为⼀个机会,与
他们坐下来,把⼀切都摆出来。
从 DeepSeek、OpenAI、Google、XAI、Anthropic,到英伟达(Nvidia)和台积电(TSMC),
再到美中关系、台湾关系以及⼈⼯智能前沿正在发⽣的⼀切,本次对话深⼊探讨了⼈⼯智能⾏业
的许多关键⽅⾯。
虽然它的技术含量很⾼,但我们试图通过定义术语、陈述重要概念、明确说明缩略语,以及通常
总是跨越⼏个抽象层和细节层次,来确保⼈⼯智能领域以外的⼈仍然可以访问它。
媒体上有很多关于⼈⼯智能是什么和不是什么的炒作。这个播客的部分⽬的是通过胡说⼋道和低
分辨率分析来减少炒作,并详细讨论这些东⻄是如何⼯作的,以及其含义是什么。
另外,如果我可以的话,请允许我评论⼀下新的 OpenAI o3-mini 推理模型,我们在谈话中期待
着它的发布,它确实是在其功能和成本与我们的预期相当之后发布的。正如我们所说的,OpenAI o3-mini 确实是⼀个伟⼤的模型,但应该指出的是,DeepSeek R1 在
基准测试中具有类似的性能,仍然更便宜,并且它揭示了 o3-mini 所没有的思维推理。它只显示
了推理的摘要。另外,R1 是开源的⽽ o3-mini 不是。
顺便说⼀句, 我有机会玩 o3-mini。我觉得 o3-mini,特别是 o3-mini High ⽐ R1 更好。尽管如
此,就我个⼈⽽⾔,我发现 Claude Sonnet 3.5 是最好的编程模型,除了我将使⽤ o1-pro 进⾏
头脑⻛暴的棘⼿情况 。
⽆论哪种⽅式,更多更好的⼈⼯智能模型将会出现,包括来⾃美国和中国公司的推理模型。它们
将继续改变成本曲线,但 DeepSeek Moment 确实是真实的 。我认为, 五年后,它仍将作为科
技史上的⼀个关键事件被⼈们铭记,部分原因是地缘政治影响,但也有其他原因 。
正如我们在这次对话中从多个⻆度详细讨论的那样,这是 Lex Fridman 的播客。为了⽀持它,请
在描述中查看我们的赞助商。
现在,亲爱的朋友们,这是 Dylan Patel 和 Nathan Lambert。很多⼈都想了解中国的 DeepSeek
⼈⼯智能模型。所以让我们把它摆出来。
Nathan,你能描述⼀下 DeepSeek V3 和 DeepSeek R1 是什么吗,它们是如何⼯作的,它们是
如何训练的?
让我们先看⼤图,然后再放⼤细节。02. DeepSeek-R1 and DeepSeek-V3Nathan Lambert: 是的。因此,DeepSeek V3 是来⾃中国的 DeepSeek 的⼀种新的专家混合
Transformer 语⾔模型。他们在模型中有⼀些新的细节,我们将进⼊。很⼤程度上,这是⼀个开
放的权重模型,它是⼀个指令模型,就像你在 ChatGPT 中使⽤的⼀样。他们还发布了所谓的基
础模型,这是在这些训练后的技术之前。如今,⼤多数⼈都在使⽤指令模型,这些模型在各种应
⽤程序中都得到了应⽤。我相信这是在 12 ⽉ 26 ⽇或那⼀周发布的。⼏周后,1 ⽉ 20 ⽇,
DeepSeek 发布了 DeepSeek R1,这是⼀个推理模型,它确实加速了很多讨论。这个推理模型
有很多重叠的训练步骤来 DeepSeek V3。令⼈困惑的是,你有⼀个叫做 V3 的基本模型,你做了
⼀些事情来得到⼀个聊天模型,然后你做了⼀些不同的事情来得到⼀个推理模型。我认为很多⼈
⼯智能⾏业正在经历这种通信的挑战,OpenAI 正在取笑他们⾃⼰的命名⽅案。他们有 GPT4O,
他们有 OpenAI01,还有很多类型的模型。所以我们将分解它们中的每⼀个。训练中有很多技术
细节,从⾼⽔平到具体,每⼀项都要经历。
Lex Frdiman: 这⾥有很多地⽅我们可以去,但也许让我们先去公开举重。开放权重的模型意味
着什么?开源通常有哪些不同的⻛格?
Nathan Lambert: 是的,这个讨论在⼈⼯智能领域已经持续了很⻓时间。⾃从 ChatGPT 以
来,它变得更加重要,或者⾃从 2022 年底的 ChatGPT 以来,它变得更加重要。开放权重是公
认的术语,当语⾔模型的模型权重在互联⽹上可供⼈们下载时,这些权重可以有不同的许可证,
这是你可以使⽤模型的有效条款。在开源软件中有来⾃历史的许可证。有些许可证是由公司设计
的,特别是所有的 Llama,DeepSeek,Qwen,Mistral。这些流⾏的名字在开放的重量模型有⼀
些⾃⼰的许可证。这很复杂,因为不是所有相同的模型都有相同的术语。最⼤的争论是什么使模
型开放的重量。我们为什么要说这个术语?有点拗⼝。它听起来很接近开源,但它不⼀样。关于
开源⼈⼯智能的定义和灵魂,仍然有很多争论。开源软件在⾃由修改⽅⾯有着丰富的历史,你可
以⾃由地使⽤⾃⼰的软件,不受任何限制。这对⼈⼯智能的意义仍在定义中。所以我在艾伦⼈⼯
智能研究所⼯作。我们是⾮营利组织。我们想让⼈⼯智能对所有⼈开放。我们试图引领我们认为
是真正开源的东⻄。在社区中没有完全达成⼀致,但对我们来说,这意味着发布训练数据,发布
训练代码,然后也有像这样的开放权重。我们将⼀次⼜⼀次地深⼊模型的细节,因为我们试图更
深⼊地了解模型是如何训练的,我们会说数据处理,数据过滤,数据质量是模型质量的⾸要决定
因素。然后很多训练代码是决定训练时间和实验速度的决定因素。因此,如果没有完全开源的模
型,你可以访问这些数据,很难知道或者很难复制。 因此,我们将讨论 DeepSeek V3 在⼤部分
GPU 时间上的成本数字,以及您⾃⼰可以⽀付多少租⾦。但如果没有数据,复制成本将会⾼得
多。代码也是⼀样。
Lex Frdiman: 我们也应该说,这可能是前沿模型中⽐较开放的模型之⼀。所以就像在这个完整
的范围内,可能是最完整的开源,就像你说的,开放代码,开放数据,开放权重,这不是开放代
码,这可能不是开放数据,这是开放权重,许可是 MIT 许可。我的意思是在不同的模型中有⼀些
细微的差别,但就开源运动⽽⾔,它是免费的。他们都是好⼈。
Nathan Lambert: 是的,DeepSeek 在传播对⼈⼯智能的理解⽅⾯做了出⾊的⼯作。他们的论
⽂⾮常详细地描述了他们所做的事情。对于世界各地的其他团队来说,他们在提⾼⾃⼰的训练技
术⽅⾯是⾮常可⾏的。我们将更多地讨论许可证。DeepSeek R1 模型具有⾮常宽松的许可证。
它被称为麻省理⼯学院许可证。这实际上意味着商业使⽤没有下游限制,没有⽤例限制。您可以
使⽤模型的输出来创建合成数据。这⼀切都太棒了。我认为最接近的同⾏是像 Llama ⼀样的东
⻄,你有重量,你有技术报告。技术报告对 Llama 来说⾮常好。去年阅读量最⼤的 PDF ⽂件之⼀是《Llama 3》。但在某些⽅⾯,它的可执⾏性略低。它在训练细节上的细节较少,情节较少
等等。Llama 3 许可证⽐ MIT 更严格。然后在深海海关许可证和骆驼许可证之间,我们可以进⼊
整个兔⼦洞。我想在我们做细节之前,我们会确保我们想要进⼊许可证的兔⼦洞。
Lex Frdiman: 是的。我的意思是,应该说明的是,DeepSeek 对 Llama 和 OpenAI 上的其他
所有⼈施加了压⼒,以推动开源。这就是你提到的开源的另⼀⾯,那就是有多少关于它的细节被
公布。所以你对代码背后的⻅解有多开放。⽐如技术报告有多好?他们的⼿是波浪形的还是有实
际的细节?这是 DeepSeek 做得很好的事情之⼀,因为他们公布了很多细节。
Nathan Lambert: 是的,特别是在 DeepSeek V3 中,这是他们的训练前⽂件,他们⾮常清
楚,他们正在对许多不同级别的技术堆栈进⾏⼲预。例如,为了获得⾼效的训练,他们在
NVIDIA 芯⽚的 CUDA 层或以下进⾏修改。我⾃⼰从来没有在那⾥⼯作过,世界上有⼏个⼈做得
很好,他们中的⼀些⼈在 DeepSeek,这些⼈在深海和领先的美国前沿实验室。但是去的地⽅不
多。
Lex Frdiman: 帮助⼈们理解开放式砝码的其他含义。只是,你知道,有⼀个话题我们经常回到
这⾥。因此,⼈们担⼼中国可能有兴趣窃取美国数据,侵犯美国公⺠的隐私。关于公开权重,我
们能说些什么来帮助我们理解权重在窃取⼈们的数据⽅⾯能够做什么?
Nathan Lambert: 是的。所以你可以从拥抱脸或其他平台下载的这些权重是⾮常⼤的数字矩
阵。你可以把它们下载到你家⾥没有互联⽹的电脑上,你可以运⾏这个模型,你可以完全控制你
的数据。这与今天许多语⾔模型的实际使⽤⽅式不同,后者主要是通过 API 将提示发送给某些公
司运⾏的数据 GPU。这些公司会有不同的分布和政策,关于你的数据是如何存储的,如果它被
⽤来训练未来的模型,它存储在哪⾥,如果它被加密,等等。因此,开放权重是指数据的命运掌
握在⾃⼰⼿中,这与开源的灵魂有着深刻的联系。
Lex Frdiman: 所以不是模型窃取了你的数据,⽽是 Qwen 托管了模型,如果你使⽤ DeepSeek
应⽤程序,可能是中国。也可能是困惑。你知道,你信任他们你的数据或 OpenAI,你信任他们
你的数据。有些是美国公司,有些是中国公司。但模型本身并没有进⾏窃取,它是宿主。好了,
回到最基本的。DeepSeek V3 和 DeepSeek R1 之间有什么区别?我们能不能试着把潜在的困惑
摆出来?
Nathan Lambert: 是的。⾸先,我⾮常理解许多⼈对这两个型号名称的困惑。所以我想说,最
好的⽅法是,当你训练⼀个语⾔模型时,你有所谓的预训练,即当你预测⼤量的互联⽹⽂本时,
你试图预测下⼀个标记。关于这些新的 DeepSeek 模型,我们要知道的是,他们在互联⽹上进⾏
了⼀次⼤规模的预训练,以获得所谓的 DeepSeek V3 基础。这是⼀个基本模型。它只是帮你把
话说完。它将⽐ ChatGPT 更难使⽤。然后 DeepSeq 所做的是他们做了两种不同的训练后制
度,使模型具有特定的理想⾏为。那么,就过去⼏年的⼈⼯智能⽽⾔,更正常的模式是什么?指
导模型、聊天模型、对⻬模型、帮助模型。有很多⽅法可以描述这是更标准的岗位训练。所以这
就像是指令调整,强化,从⼈类反馈中学习。我们将讨论其中的⼀些词。这就是他们创建
DeepSeek V3 模型所做的⼯作。这是第⼀个发布的模型,它的性能⾮常⾼,可以与 GPT4、
Llama、405B 等竞争。然后当这个版本发⽣时,我们不知道他们的确切时间表,或者在他们完成
训练后不久,从我谈到的基于相同的下⼀个令牌预测模型的不同训练过程。这就是⼈们听说的这
种新的推理训练出现的时候,为了创建被称为 DeepSeek R1 的模型。这段对话中的 R 有助于为
推理打下基础。这个名字也类似于 OpenAI 的 O1,这是⼈们听说过的另⼀个推理模型。我们必
须更详细地分解 R1 的训练,因为我们有⼀篇论⽂详细介绍了它,但它也是⼈⼯智能社区的⼀套更新的技术。 所以这是⼀个发展更快的研究领域。
Lex Frdiman: 也许我们还应该说训练的两⼤类别,即训练前和训练后,这是⼈们使⽤的总称。
那么,什么是训练前,什么是训练后,以及训练背后有什么不同的东⻄?岗位训练伞?
Nathan Lambert: 是的,所以在训练之前,我使⽤了⼀些相同的词语来真正传达信息,即你在
做所谓的⾃回归预测来预测⼀系列⽂档中的下⼀个标记。这是在标准做法是数万亿代币上完成
的。所以这是⼀⼤堆数据,⼤部分是从⽹络上搜集来的。在 DeepSeek 早期的⼀些论⽂中,他们
谈到他们的训练数据是为数学⽽提取的。我还不应该使⽤这个词,但取⾃ Common Crawl,这是
⼀个公共访问,任何⼈都可以从 Common Crawl ⽹站下载数据。这是⼀个公开维护的爬⾍。是
的,其他科技公司最终会转向⾃⼰的爬⾍,Deepseak 很可能已经做到了这⼀点,就像⼤多数前
沿实验室⼀样。但这类数据是⼈们可以开始使⽤的,你只是预测⼀系列⽂档中的⽂本。这可以扩
展为⾮常⾼效。在⼈⼯智能训练中,有很多数字被抛出,⽐如使⽤了多少浮点运算或 FLOPS。
然后你也可以看看这些 GPU 使⽤了多少⼩时。这在很⼤程度上是⼀个损失函数,需要⼤量的计
算机使⽤。你建⽴了真正⾼效的系统,然后在最后你有了这个基本模型。⽽预训练是在过程如何
出现或发展以及您将使⽤的不同类型的训练损失⽅⾯有更多的复杂性。我认为这是基于⾃然语⾔
处理⽂献的许多技术。⾄今仍在使⽤的最古⽼的技术是指令调优,也称为监督微调。这些缩写将
是 IFT 或 SFT。⼈们真的来来回回,我可能也会这样做。这是您将此格式添加到模型的地⽅,
它知道回答⼀个问题,⽐如向我解释罗⻢帝国的历史,或者你会在 Reddit 或 Stack Overflow 上
看到的问题,然后模型会以⼀种信息密集但像样的⽅式回答。格式化的核⼼就在这个指令调优阶
段。今天还有另外两种类型的损失函数。我将其归类为偏好微调。偏好微调是⼀个⼴义的术语,
指的是来⾃⼈类反馈的强化学习,即 RLHF。这种来⾃⼈类反馈的强化学习被认为是帮助
ChatGPT 取得突破的技术。这是⼀种技术,可以让回复像 Reddit 上的这些答案⼀样有很好的格
式,更符合⼈们想要阅读的内容。这是通过从世界上真实的⼈那⾥收集成对的偏好来开始的。现
在⼈⼯智能也在标记这些数据,我们将进⼊这些权衡,你有这种好答案和坏答案之间的对⽐损失
函数。模型学会了捕捉这些趋势。有不同的实现⽅式。你有所谓的奖励模式。你可以⽤直接对⻬
算法。你可以做很多⾮常具体的事情。但所有这些都是关于⼈类偏好的微调。最后⼀个阶段要新
得多,我们将链接到 R1 中所做的⼯作。这些推理模型,我认为是 OpenAI 的名字。他们在秋天
有了这个新的 API,他们称之为强化微调 API。这是你使⽤强化学习技术的想法,这是⼈⼯智能
的整个框架。这⾥有⼀篇很有深度的⽂献可以总结。它通常被称为试错学习或⼈⼯智能的⼦领
域,你试图在某个潜在的嘈杂环境中做出连续的决定。我们有很多⽅法可以做到这⼀点。 但是微
调语⾔模型,它们可以⽣成⼀个答案,然后你检查答案是否与数学或代码的真正解决⽅案相匹
配,你有⼀个完全正确的数学答案,你可以对代码进⾏单元测试。我们正在做的是检查语⾔模型
的⼯作,我们在同⼀个问题上给它多次机会,看看它是否正确。如果你坚持这样做,模型可以在
很⼤程度上学习改进可验证的领域。它真的很好⽤。在学术⽂献中,这是⼀种较新的技术。多年
来,美国的前沿实验室(Frontier Labs)⼀直在使⽤它,⽽不是分享每⼀个细节。这就是⽤语⾔
模型进⾏强化学习的想法。它⼀直在起⻜,特别是在这个深层次的时刻。
Lex Frdiman: 我们应该说,有很多令⼈兴奋的事情再次发⽣在整个堆栈上。但是岗位训练,可
能今年在岗位训练⽅⾯会有很多有趣的发展。我们会,我们会谈谈的。我差点忘了谈论
DeepSeek V3 和 R1 在⽤户体验⽅⾯的区别。所以忘记技术上的东⻄,忘记所有这些。只是那些
对⼈⼯智能⼀⽆所知的⼈,他们表现得像是实际体验是什么?当他们真正喜欢类型并与之交谈
时,每个⼈的⽤例是什么?每个⼈擅⻓什么?还有那种事。Nathan Lambert: 所以让我们再次从 DeepSeek V3 开始。这是更多⼈会尝试的。就像它⼀
样,你问它⼀个问题,它会很快开始⽣成标记,这些标记看起来就像⼀个⾮常⼈性化的清晰答
案。这将是某种减价清单。它可能有格式来帮助您绘制答案中的核⼼细节,并且它将⽣成数⼗到
数百个标记。标记通常是常⽤词的单词或较⻓单词中的⼦词部分。它看起来像⼀个⾮常⾼质量的
Reddit 或堆栈溢出答案。这些模型真的很擅⻓在各种各样的领域做这些事情。我认为,即使是那
些你是专家的事情,那些接近知识边缘的事情,他们仍然会相当擅⻓。我认为我研究的前沿⼈⼯
智能课题。这些模型能够帮助学习,并定期更新。这⼀变化与 DeepSeek R1 有关。所谓的这些
推理模型是,当你看到来⾃这些模型的标记时,它将是⼀个庞⼤的思维过程链。我们⻢上回到思
维链,看起来有很多标记,模型解释了问题,模型通常会分解问题,就像,好的,他们问我这
个,让我们分解问题,我需要这样做。你会看到所有这些都是从模型中⽣成的。很快就会来的。
在⼤多数⽤户体验中,这些 API 都⾮常快。所以你会看到很多标记,很多单词出现得⾮常快。它
将继续在屏幕上流动,这是所有的推理过程。然后最终模型会改变它在 R1 中的语⽓,它会写出
答案,它总结了它的推理过程,并写出与第⼀种模型类似的答案。但在 DeepSeek 的例⼦中,这
也是为什么它在⼈⼯智能社区之外如此受欢迎的部分原因,因为你可以看到语⾔模型是如何分解
问题的,然后你就可以得到这个答案。 在技术⽅⾯,他们训练模型来做这件事,特别是在他们有
⼀个推理部分的地⽅,然后它⽣成⼀个特殊的标记,这个标记可能在⼤多数时候对⽤户是隐藏
的,它说,好的,我开始回答了。因此,该模型被训练为独⽴完成这两个阶段的过程。如果你在
OpenAI 中使⽤⼀个类似的模型,OpenAI 的⽤户界⾯试图为你很好地总结这个过程,通过显示模
型正在做的部分,它会点击,它会说,分解问题,进⾏ X 计算,清理结果,然后答案就会出现,
⽐如 OpenAI,也许它是有⽤的。
Lex Frdiman: 这⾥有⼀个 DeepSeek R1 推理的例⼦。
Nathan Lambert: 是的,如果你看这⾥的屏幕,你会看到⼀个深海聊天应⽤程序的屏幕截图。
顶部是 1517 秒,下⾯是下拉箭头。如果我们在⼀个正在运⾏的应⽤程序中,下拉箭头就会有理
由。
Lex Frdiman: 所以在这种情况下,具体的问题,我是哲学上的瘾君⼦,所以这是问 DeepSeek
R1 关于⼈类的⼀个真正新颖的⻅解,它揭示了推理。基本上,真正新颖的⽅⾯是推动推理的东
⻄,不断地让模型问⾃⼰,这是真正新颖的吗?所以它实际上是在挑战⾃⼰,变得更新颖,更违
反直觉,更。少点畏缩,我想。所以⼀些推理说这只是快照。或者,⼈类有⼀种独特的元情绪,
他们对⾃⼰的情绪有感觉,例如,对⽣⽓感到内疚。这种递归的情绪分层创造了复杂的动机驱
⼒,这在其他动物身上是不存在的。洞⻅是⼈类的情感是嵌套的。所以这就像是通过⼈类如何感
受情感来进⾏推理,这是关于元情感的推理。
Dylan Patel: 会有⼀⻚⼜⼀⻚的内容。它⼏乎太多了,⽆法真正阅读,但当它出现时,浏览⼀
下是很好的。
Lex Frdiman: 这是⼀种意识流,就像詹姆斯 · 乔伊斯的意识流。然后它说,等等。⽤户想要⼀
些在其他地⽅看不到的东⻄。让我更深⼊地挖掘并考虑⼈类同时持有⽭盾信念的能⼒。认知失调
是众所周知的,但也许其功能是允许灵活的适应,等等。我的意思是,这真的抓住了公众的想象
⼒,天啊,这不明智。⼏乎就像⼀种知觉的暗示,因为你在思考,你在⾃我反省,你在深思熟
虑。157 秒后的最终结果是,⼈类通过集体假装抽象的规则、⾦钱、法律和权利是真实的,本能
地将⾃私的欲望转化为合作系统。这些共同的幻觉就像引⽤游戏⼀样,竞争被秘密地重新定向,
以使群体受益,将冲突转化为社会的燃料。相当深刻。我是说,你知道,这是⼀个。Nathan Lambert: 评论离题,但很多⼈发现,这些推理模型有时可以产⽣更有说服⼒的⽂本。
这⾄少是⼀个有趣的例⼦。我认为取决于你的思想有多开放,你会发现语⾔模型是否有趣。这⾥
有⼀个光谱。
Lex Frdiman: 嗯,我的意思是,这是⼀些,我们将讨论不同的基准等等,但有些只是⼀种氛
围,就像它本身是⼀个,让我们说,引⽤,⽕的推⽂。是的,如果我试图⽣产⼀些东⻄,⼈们会
说,哦,妈的,好吧,这就是思维的链条。我们可能会更多地回到它。他们是如何在训练和推理
上实现如此低的成本的?也许你可以先谈谈训练。
- 低成本训练
Dylan Patel: 是的,所以他们实现了两个主要技术,这可能是他们效率的主要部分,然后还有
很多实现细节,我们可能会忽略或稍后讨论,这对它有⼀定的贡献。但这两件主要的事情是。⼀
个是他们采⽤了混合专家模型,我们⻢上就会对其进⾏定义。另⼀件事是他们发明了⼀种叫做
MLA 潜在注意⼒的新技术。这两件事都是⼤事。专家的混合已经在⽂献中出现了⼏年了,⽽
OpenAI 和 GPT4 是第⼀个将专家混合模型产品化的产品。这意味着当你看到周围的常⻅模型
时,⼤多数⼈都能够与之互动,这是开放的,对吧?想想 Llama 。Llama 是⼀个密集的模型。也
就是说,每⼀个参数或神经元都被激活,就像你在模型中⽣成的每⼀个令牌⼀样。对的?现在,
在混合专家模型中,你不会这样做,对吗?⼈类实际上是如何⼯作的?
Nathan Lambert: 对吗?
Dylan Patel: 就像,哦,当我思考视觉任务或其他事情时,我的视觉⽪层是活跃的,对吗?我
的扁桃体是我害怕的时候,对吗?你⼤脑的这些不同⽅⾯专注于不同的事情。专家模型的混合试
图在某种程度上接近这⼀点。它与⼤脑的结构相差甚远。但模型的不同部分会激活,对吧?模型
中有⼀定数量的专家,并且每次都有⼀定数量的专家被激活。这⼤⼤降低了你的训练和推理成
本。因为现在如果你把参数计数看作是你在训练过程中压缩的所有知识的总嵌⼊空间,当你嵌⼊
这些数据时,⽽不是每次训练或运⾏推理时都必须激活每个参数,现在你可以只激活⼀个⼦集,
模型将学习不同任务的专家。所以这是⼀个巨⼤的创新,我可以继续增加参数的总嵌⼊空间。所
以 DeepSeek 的模型是 6000 亿个参数,对吧?相对于 Llama 405b,它有 4050 亿个参数,对
吗?拉玛相对于拉玛 70b,它是 700 亿个参数,对吗?所以这个模型在技术上有更多的信息嵌⼊
空间,以压缩互联⽹上所有的世界知识。但与此同时,它只激活了⼤约 370 亿个参数。因此,每
次训练数据或从中推断数据时,实际上只需要计算这些参数中的 370 亿个。因此,与骆驼模型相
⽐,700 亿个参数必须被激活,或者 4050 亿个参数必须被激活。因此,当您使⽤这种混合专家
体系结构进⾏训练和推理时,您已经显著降低了计算成本。
Nathan Lambert: 我们是不是应该把它分解到实际应⽤的地⽅,然后进⼊ Transformer?那有
⽤吗?
Lex Frdiman: 我们⾛,我们⾛进 Transformer。
Nathan Lambert:Transformer 是⼀个谈论很多的东⻄,我们不会涉及每⼀个细节。从本质上
讲,Transformer 是建⽴在这种注意⼒机制的重复块上,然后是传统的密集全连接多层感知器。
⽆论你想⽤什么词来形容你的正常神经⽹络。你交替使⽤这些块。还有其他细节,在这个密集模
型中应⽤了专家的混合。如果在 Transformer 模型中计算权重,则密集模型包含⼤部分权重。所
以你可以从这些专家在训练和推理中的参数效率中获得很⼤的收益,因为你可以通过不激活所有
这些参数来获得这种效率。Lex Frdiman: 我们也应该说 Transformer 是⼀个巨⼤的神经⽹络。15 年来,出现了所谓的深
度学习⾰命。⽹络变得越来越⼤,在某⼀点上,标度定律出现了,⼈们意识到这是⼀件标度定律
衬衫,顺便说⼀下,它代表标度定律。在那⾥,它变得越来越正式,在更⼤的含义的多个维度
上,越⼤越好。但这些都是我们正在讨论的神经⽹络。我们正在讨论如何构建这些神经⽹络的不
同架构,以便对它们进⾏训练和推理是⾮常有效的。
Nathan Lambert: 是的,每⼀种不同类型的模型都有不同的缩放法则,这对于你在架构中投⼊
多少计算将在测试任务中获得不同的性能⽔平是有效的。专家的混合是训练时间的⼀部分。即使
你不考虑推理的好处,这在训练时也是很⼤的。通过使⽤这种架构,如果实施良好,您的 GPU
效率将得到显著提⾼。因此,您可以有效地获得相同的性能模型和评估分数,⽽计算减少 30%。
我认为根据你的实现细节和材料,会有很⼤的变化。但重要的是要认识到,这种类型的技术创新
会带来巨⼤的收益。我希望⼤多数为他们的模型提供服务的公司都能转向这种混合专家实施。从
历史上看,不是每个⼈都会这么做的原因是因为它的实现很复杂,尤其是在做这些⼤模型的时
候。所以这是 DeepSeek 获得赞誉的原因之⼀,他们在这⽅⾯做得⾮常好。他们把专家混合得⾮
常好。这个架构被称为 DeepSeek MOE,MOE 是多篇旧论⽂的专家混合的缩略版。他们的训练
基础设施的这⼀部分对这些模型来说并不陌⽣。迪伦提到的多头潜在注意⼒也是如此。这⼀切都
是为了减少推理过程中的内存使⽤,以及通过使⽤⼀些花哨的低秩近似数学来减少训练过程中的
内存使⽤。如果你带着这种潜在的注意⼒进⼊细节,这是我看到的其中⼀件事,就像,好吧,他
们正在做⾮常复杂的实现,因为语⾔模型的其他部分,⽐如⽤于扩展上下⽂⻓度的嵌⼊。
DeepSeq 常⽤的⼀种是旋转定位嵌⼊,称为 Rope。如果你想⽤正常运动的绳⼦, 这是⼀种连
续的事情。你取两个注意⼒矩阵,通过复数值旋转来旋转它们,这是⼀个矩阵乘法。有了
DeepSeek 的 MLA,有了这个新的注意⼒架构,他们需要做⼀些聪明的事情,因为他们的设置不
⼀样,这只会使实现的复杂性更⾼。所以他们正在管理所有这些事情,这些可能是 OpenAI,这
些封闭的实验室正在做的事情。我们不知道他们是否在做完全相同的技术,但他们实际上与世界
分享了这些技术,这真的很好。这是⾼效语⾔模型训练的前沿。
Lex Frdiman: 其中⼀些需要低⽔平的⼯程,只是在欺骗中是⼀个巨⼤的混乱。所以据我所知,
它们低于 CUDA,所以它们⾮常低。
Dylan Patel:GPU 的有效编程,NVIDIA 构建了这个名为 Nickel 的库,对吗?你知道,当你训
练⼀个模型时,你在模型的每⼀层之间都有所有这些通信,你可能有⼀百多层。
Nathan Lambert: 镍币代表什么?
Dylan Patel: 这是 NCCL 的 NVIDIA 通信集体图书馆。
Lex Frdiman: 很好。
Dylan Patel: 所以,当你训练⼀个模型时,你会在每⼀层之间,在多层感知器或前馈⽹络和注
意⼒机制之间,让所有这些都减少和聚集,你会让模型基本上同步,对吧?或者你会有
AllReducer 和 All Gather。这是⽹络中所有 GPU 之间的通信,⽆论是训练还是推理。所以英伟
达有⼀个标准库。这就是为什么很难使⽤其他⼈的硬件进⾏训练的原因之⼀,因为没有⼈真正建
⽴了⼀个标准的通信库。英伟达已经在更⾼的层次上做到了这⼀点,对,DeepSeek,因为他们
对 GPU 有⼀定的限制,他们可以访问互连,在某种程度上受到合法运⼊中国的 GPU 的限制,
不是那些⾛私的,⽽是合法运⼊的,他们⽤来训练这个模型。他们必须弄清楚如何提⾼效率。其
中⼀件事是,他们安排了⾃⼰的通信,⽽不是仅仅把 NVIDIA 库称为 Nickel,⼀些实验室也是这
样做的。伊梅达在《Llama 3》中谈到了他们如何制作⾃⼰的定制版镍。这是。他们没有,他们没有谈论实施细节。这是他们所做的⼀些事情。可能不如深度探索,因为深度探索,你知道,需
求是创新之⺟,他们必须这样做。⽽在这种情况下,你知道,OpenAI 有⼈做这类事情,⼈类,
等等。但是,你知道,DeepSeek 确实公开做了这件事,⽽且他们可能做得更好,因为他们在芯
⽚的某个⽅⾯受到了限制,他们可以访问。所以他们通过安排特定的短信来安排通信。你可以把
SMS 想象成 GPU 上的核⼼,对吧? 因此,GPU 上有数百个核⼼或 100 多个核⼼ SMS。他们
专⻔安排,嘿,哪些在运⾏模型,哪些在做所有的减少,哪些在做所有的收集,对吧?它们会在
它们之间来回翻转。并且这需要极低级别的编程。
Nathan Lambert: 这是镍⾃动做的。或其他 NVIDIA 库通常会⾃动处理此问题。
Dylan Patel: 是的,没错。所以从技术上讲,他们使⽤的是 PTX,这有点像你可以把它想象成
⼀种汇编语⾔。不完全是这样。或者指令集,对吧?⽐如直接对汇编指令集进⾏编码。不完全是
这样,但这在技术上仍然是 CUDA 的⼀部分。但这就像,我想⽤ Python 编写,你知道,相当于
PyTorch,并调⽤ NVIDIA 库?我想降到 C 级,对吗?或者你知道,编码更低的级别?或者我想
⼀直深⼊到组件或 ISO 级别?⽽且,在有些情况下,你会去⾮常⼤的实验室,但⼤多数公司都不
会这样做,对吧?因为这是在浪费时间,⽽且你获得的效率收益也不值得。但是 DeepSeek 的实
现太复杂了,对吧?尤其是他们的专家组合。对的?⼈们已经做了专家的混合,但他们通常是
8,16 个专家。对的。它们也被激活了。所以你知道,我们喜欢⽤的⼀个词是稀疏因⼦,对吧?
或⽤法。对的?所以,你可能有四个,你知道,四分之⼀的模型被激活,对吗?这就是⽶斯特拉
尔的混合模型,对。他们的,他们的模型真的让他们喜欢,哦,我的上帝,他们真的,真的很
好。OpenAI 也有 MOE 的模型,所有其他主要关闭的实验室也是如此。但是 DeepSeek 做了什
么,也许只有领先的实验室最近才开始做的是有这么⾼的稀疏性因素,对吧?它不是模型的
1/4,对吗?⼋个专家中有两个在你每次浏览模型时都会激活,这是 256 个专家中的⼋个。
Nathan Lambert: 专家的混合有不同的实现⽅式,你可以让其中⼀些专家总是被激活,这看起
来就像⼀个⼩的神经⽹络,然后所有的令牌都通过它,然后它们也通过这个路由机制选择的⼀
些。DeepSeek 架构的创新之⼀是他们改变了路由机制。在专家模型的混合中,有⼀种叫做辅助
损失的东⻄,这实际上意味着在训练过程中,你要确保所有这些专家都被⽤在任务中,模型看到
了为什么会有失败。专家的混合是,当你做这个训练时,⼀个⽬标是标记预测的准确性。如果你
只是让你⾃⼰的混合专家模型去训练,它可能是模型学习只使⽤专家的⼦集。在教育部的⽂献
中,有⼀种叫做辅助损失的东⻄,它有助于平衡它们。但如果你想想深度学习的损失函数,这甚
⾄与痛苦的教训有关,那就是你希望在你的模型中有最⼩的归纳偏差,让模型最⼤限度地学习。
这种辅助损失,这种专家之间的平衡可以被看作是与代币的预测准确性之间的紧张关系。所以我
们不知道 DeepSeek 变化的确切程度,这不是辅助损失,⽽是在他们的路由中有⼀个额外的参
数,在批次之后,他们更新这个参数,以确保下⼀批都有类似的专家使⽤。这种变化可能很⼤,
也可能很⼩,但随着时间的推移,它们会累积起来。这是⼀种指向他们创新的东⻄。我敢肯定,
所有训练⼤型 MOE 的实验室都在研究这类事情。这是从辅助损失中摆脱出来的。他们中的⼀些
⼈可能已经使⽤了它,但你⼀直在积累收益。 我们将讨论训练的理念以及如何组织这些组织。随
着时间的推移,你的数据、你的架构和你的岗位训练以及它们如何相互集成,其中很多都是⼩的
改进。DeepSeq 也做同样的事情。其中⼀些是共享的。我们必须接受他们的表⾯价值,他们分
享他们最重要的细节。我的意思是建筑和重量都在那⾥。所以我们看到他们在做什么,这就增加
了。
Dylan Patel: 回到效率和复杂性的问题上,对吗?32 对 4,对如混合绘制和其他已公开发布的MOE 模型。所以这个⽐例是⾮常⾼的。Nathan 的意思是,当你有如此不同的稀疏度⽔平时,你
不能让每个 GPU 都拥有整个模型,对吧?模型太⼤了,太复杂了。所以你必须⽤不同类型的并
⾏性来分割模型。所以你可能在不同的 GPU 节点上有不同的专家。但现在当你得到的这组数
据,嘿,所有的数据看起来都是这样的,所有的数据都应该路由到我的模型的⼀部分。因此,当
所有这些都路由到模型的⼀部分时,您可以重载某⼀组 GPU 资源或某⼀组 GPU,然后训练⽹络
的其余部分处于空闲状态,因为所有令牌都路由到该部分。所以这是最⼤的复杂性,运⾏⼀个⾮
常稀疏的专家混合模型的最⼤复杂性之⼀,即这个 32 的⽐例与这个 4 的⽐例,你最终会有这么
多的专家只是坐在那⾥⽆所事事。那么,如何在它们之间进⾏负载平衡呢?如何安排它们之间的
通信?这是很多极低⽔平的详细⼯作,他们⾸先在公众中发现,可能是世界第⼆或第三,在某些
情况下甚⾄可能是第⼀。
Lex Frdiman: 你从这⼀切中学到了什么更好的教训?这将是很⼤收益的⽅向在哪⾥?这是⼀种
低层次的优化?或者这是⼀个短期的事情,最⼤的收益将更多地在算法的⾼层次⽅⾯,如后训
练?这是不是⼀个短期的⻜跃,因为他们已经像⿊客⼀样发现了,因为约束和需要是发明之⺟?
还是仍然有很多收获?
Nathan Lambert: 我认为我们应该总结⼀下惨痛的教训到底是什么。如果你解释⼀下,这是⼀
个痛苦的教训,那就是在深度学习中胜出的训练类型是那些在学习中可扩展的⽅法。搜索就是它
所呼吁的。这个⾳阶词在这⽅⾯得到了很多关注。我使⽤的解释是有效地避免在你的学习过程中
添加⼈类先验。如果你读了原⽂,这就是它所谈论的是研究⼈员将如何尝试提出聪明的解决⽅案
来解决他们的具体问题,这可能会让他们在短期内获得⼩的收益,同时让这些深度学习系统⾼效
地⼯作,从⻓远来看,这些更⼤的问题可能更有可能扩⼤规模并继续推动成功。因此,我们讨论
的是对专家混合模型进⾏相对较⼩的实现更改。因此,好吧,我们还需要⼏年的时间才能知道其
中⼀个是否真的对痛苦的教训⾄关重要。但痛苦的教训是,从⻓远来看,简单往往会胜出。业内
有很多说法,⽐如模特只想学习。你必须给他们⼀个简单的损失场景,你把计算放在模型中,他
们就会学习。把障碍移开。
Lex Frdiman: 这就是像镍这样的东⻄的⼒量所在。标准化的代码可以被很多⼈⽤来创造⼀些可
以扩展的简单创新。这就是为什么⿊客。我想 DeepSeek 的代码库可能是⼀个巨⼤的混乱。
Nathan Lambert: 我肯定他们有。在测试这些新想法的地⽅,DeepSeek 的代码库肯定⾮常混
乱。多头潜在注意⼒可能会从 Jupyter 笔记本电脑之类的东⻄开始,或者有⼈在⼏个 GPU 上尝
试⼀些东⻄,这真的很麻烦。但是训练 DeepSeq V3 和 DeepSeek R1 的东⻄,那些库,如果你
把它们呈现给我们,我想我们的质量⾮常⾼。
Lex Frdiman: 代码,⾼质量的可读代码。
Dylan Patel: 我认为有⼀个⽅⾯需要注意,对吗?有⼀种通⽤的能⼒,可以在不同类型的运⾏
中转移。对的?你可以为⼀个特定的模型架构以⼀种尺⼨制作⾮常⾮常⾼质量的代码,然后这是
不可转移的。嘿,当我做这个架构调整时,⼀切⼜都坏了。对的?就像这样,这可能是,你知
道,他们的,他们的特定的低级编码,⽐如调度,SMS 是特定于这个模型架构和⼤⼩的,对
吧?⽽像英伟达的集体的图书馆更像是,嘿,它会为任何⼯作,对不对?你想做⼀个全减,太好
了。我不关⼼你的模型架构是什么,它会起作⽤的。在很多情况下,当你这样做的时候,你会放
弃很多性能。但是,考虑到他们在计算⽅⾯的限制,对他们来说,为特定的运⾏进⾏特定的优化
是值得的。
Lex Frdiman: 我想知道这些前沿模型的压⼒有多⼤。开始训练,让代码按下按钮,你现在花了⼤量的⾦钱和时间来训练这个。在调试阶段必须有很多创新,以确保没有问题,你正在监控和可
视化训练的各个⽅⾯,所有这类东⻄。
Dylan Patel: 当⼈们在训练时,他们有各种各样的仪表板,但最简单的是你的损失,对吗?⽽
且还在继续下降。但在现实中,特别是对于更复杂的东⻄,⽐如 MOE,最⼤的问题是它,或者
FP8 训练,这是另⼀项创新,采⽤精度较低的数字格式,准确性较低,最终会出现损失峰值,对
吧?没有⼈知道为什么会发⽣丢失的尖峰。很⻓⼀段时间。
Nathan Lambert: 有些是你做的,有些是你做的,有些是坏数据。我能举⼀个艾图爆炸的例⼦
吗?我们早期的模型是⼀个名为 “微波帮” 的⼦ Reddit。我们喜欢⼤声喊出来。这是⼀个真实的
东⻄,你可以拉起微波团伙。从本质上讲,它是⼀个⼦ Reddit,每个⼈都发布只是字⺟ M 的帖
⼦,所以它就像 M,所以有⾮常⻓的字⺟ M 的序列,然后评论就像哔哔,因为那是微波结束的
时候。但是如果你把它传递给⼀个被训练成正常⽣成⽂本的模型,这是⾮常⾼的损失,因为通常
你看到⼀个 M,你不会在很⻓⼀段时间内预测 M。所以这件事给我们带来了很多麻烦。但当你有
很多这样的东⻄时,这是旧的,这不是最近的。当你拥有更成熟的数据系统时,这并不是导致损
失激增的原因。迪伦所说的是真的,但这就像,这是,这是⽔平。
Dylan Patel: 这种想法是关于压⼒的,对吗?这些⼈就像,你知道,你会出去吃饭,就像在这
些实验室⼯作的朋友⼀样,他们只是。他们就像每 10 分钟看⼀次⼿机⼀样。他们不喜欢,你知
道,如果他们发短信是⼀回事,但他们只是喜欢,就像,是丢失的代币。
Nathan Lambert: 每秒损失,⽽不是爆炸。他们只是在散步,看着我们和。
Lex Frdiman: ⼼率上升。
Dylan Patel: 如果有⼀个尖峰,并且有⼀定程度的尖峰是正常的,对吗?它会。它会恢复并回
来的。有时候,很多旧的策略是,你只是停⽌运⾏,从旧版本重新启动,然后改变数据组合,然
后继续运⾏。
Nathan Lambert: 甚⾄有不同类型的尖峰。Dirk Groeneveld 在⼈⼯智能⽅⾯也有⼀个理论,
就像快速尖峰和慢速尖峰,有时你会看到损失,还有其他参数,你可以看到它开始蔓延,然后爆
炸,这真的很难恢复。所以你必须追溯到更远的地⽅。所以你有⼀段紧张的时期,它就像是平坦
的,或者它可能开始上升,你会想,我该怎么办?然⽽,也有看起来不错的损失峰值,然后有⼀
个尖锐的数据点,你能做的就是跳过这些。你看到有⼀个峰值,你会想,好吧,我可以忽略这个
数据,不更新模型,然后做下⼀个,它会很快恢复。但这些复杂的实现,所以当你的架构变得更
复杂,你扩展到更多的 GPU 时,你的损失就更有可能扩⼤。所以这就像是⼀种分布。
Dylan Patel:Grokking 的整个概念也是如此,对吗?这就像,仅仅因为它在损失中放慢了改善
的速度并不意味着它没有学习。因为突然间它可能会像这样,它可能会再次陷⼊亏损。因为它确
实学到了⼀些东⻄,对吧?它花了⼀些时间才知道这不是⼀个渐进的过程,对吧?这就是⼈类的
样⼦,这就是模特的样⼦。所以,正如你所提到的,这确实是⼀项压⼒很⼤的任务。
Lex Frdiman: 在整个过程中,美元的数量⼀直在上升。
Nathan Lambert: 每家公司都有失败的例⼦。你需要失败的运⾏来推动你的基础设施的发展。
所以很多新闻周期都是由 X 公司组成的,如果 Y 公司失败了。每⼀家试图推动⼈⼯智能前沿的
公司都有这些。所以是。是的,这是值得注意的,因为这是⼀⼤笔钱,⽽且可能是⼀周到⼀个⽉
的挫折,但这是过程的⼀部分。
Lex Frdiman: 但是你怎么去,如果你在深度探索,你怎么去⼀个神圣的地⽅。有⼀个成功的超
参数组合。Nathan Lambert: 很多⼩的失败运⾏和。
Lex Frdiman: 如此,如此快速的迭代通过失败的运⾏,直到。
Dylan Patel: 还有成功的。
Lex Frdiman: 你只是,然后你建⽴了⼀些像这样的直觉,这种专家⼯作的混合,然后这种实
现。
Nathan Lambert:MLA 是有效的,关键的超参数,⽐如学习率和正则化等等。并且您可以找到
适合您的代码库的机制。与前沿实验室的⼈交谈,有⼀个故事,你可以告诉训练语⾔模型是你需
要遵循的⼀条道路。所以你需要解锁训练某⼀类模型或者某⼀种规模的能⼒。然后你的代码库和
你的内部知识,哪些超参数为它⼯作是已知的。你看看 DeepSeek 的论⽂和模型,他们已经扩⼤
了规模,他们增加了复杂性,它只是在继续构建他们所拥有的能⼒。
Dylan Patel: 这就是 YOLO 跑步的概念。所以,你只能活⼀次。它是什么,就像,你知道,你
在⼩规模上做的所有这些实验,对吗?研究消融,对吧?就像你有你的 Jupyter 笔记本电脑,你
在三个 GPU 或其他东⻄上试验 MLA,你在做所有这些不同的事情。⽐如,我要做四个专家,四
个活跃的专家,128 个专家。我要这样安排专家吗?所有这些不同的模型架构的东⻄,你正在测
试⼀个⾮常⼩的规模,对不对?⼏个研究⼈员,⼏个 GPU,⼏⼗个 GPU,⼏百个 GPU,不管它
是什么。然后突然间你会说,好了,伙计们,别再胡闹了,对吧?别再胡闹了。每个⼈都拿出我
们所有的资源,让我们选择我们认为可⾏的东⻄,然后去做,对吗?这就是那种压⼒的来源,就
像,嗯,我知道它在这⾥起作⽤,但有些东⻄在这⾥起作⽤,有些东⻄在这⾥起作⽤,在这⾥不
起作⽤,对吗?就规模⽽⾔,对吧?所以这是,这是,这真的是⼀个 YOLO 运⾏,有点像这样,
就像某些研究⼈员的讨论,就像这种有条不紊的性质。⽐如他们可以找到整个搜索空间,找出不
同研究的所有消融,真正看到什么是最好的。有⼀些研究⼈员就像,你知道,有⼀种天⽣的直
觉,这就是 YOLO 跑步。就像,你知道,我在看数据。这就是它。
Nathan Lambert: 这就是为什么你想在训练后⼯作,因为训练的 GPU 成本较低,所以你可以
进⾏更⾼⽐例的训练。约洛跑步。
Lex Frdiman: 是的,为了。
Dylan Patel: ⽬前。
Lex Frdiman: 是的,现在,现在。所以从根本上说,这仍然是运⽓。
Dylan Patel: 运⽓就是技巧,对吗?在很多情况下,是的。
Lex Frdiman: 我的意思是它看起来很幸运,对吗?
Nathan Lambert: 当你在爬⼭的时候,如果你在其中⼀个实验室⾥,你有⼀个评估,你不会崩
溃,有⼀个关于你如何改进事情的重复的剧本。有⼀些局部的改进,可能是数据的改进,这些加
起来使整个模型变得更好。当你把镜头拉近时,很明显这个模型在这⽅⾯做得很差,我们可以修
复它。你只要把这些加起来。所以有些感觉像是运⽓。但在现实中,特别是在我们谈论的这些新
的推理模型中,我们可以通过很多⽅法来探索,通常其中⼀些⽅法会带来很⼤的改进。
Dylan Patel: 搜索空间⼏乎是⽆限的,对吗?然⽽,你所拥有的计算和时间却⾮常少。你必须
按计划发布。你不能被每个⼈吹过去。否则,DeepSeek 会发⽣什么,粉碎梅塔,⽶斯特拉尔和
科赫尔以及所有这些家伙,他们移动得太慢了,对吗?他们可能太有条理了,我不知道。他们没
有击中 YOLO 运⾏。不管是什么原因,也许他们没有那么熟练,不管是什么。你知道,如果你愿
意,你可以称之为运⽓,但在⼀天结束的时候,这是技巧。
Lex Frdiman: 所以 2025 年是 YOLO 跑步的⼀年。好像所有的实验室都要进去。Dylan Patel: 我认为 OpenAI 在 2022 年所做的更令⼈印象深刻,对吗?当时,没有⼈相信专
家模型的混合,对吗?在⾕歌,他们有所有的研究⼈员,OpenAI 只有很少的计算,他们把所有
的计算都投⼊了好⼏个⽉,对吧?所有这些,在⼏个⽉的时间⾥ 100% 地使⽤全新架构的
GPT4,没有⼈相信,嘿,让我花⼏亿美元,这是我在这个模型上的所有钱,对吗?这才是真正
的 YOLO。现在⼈们喜欢,媒体上的所有这些训练失败,就像,好吧,很好,但实际上我的
GPS 中有很⼤⼀部分在做推断。我还有⼀群⼈在不停地做研究。是的,我最⼤的集群是训练,
但就像这次 YOLO 跑步⼀样。但是,YOLO 运⾏的⻛险⽐ OpenAI 在 2022 年所做的或者 Deep
Seat 现在所做的要⼩得多,或者你知道,就像,就像,嘿,我们要把所有的东⻄都扔进去。
Lex Frdiman: ⼈类历史上最⼤的赢家是那些愿意在某个时候做 YOLO 的⼈ 。好的,我们对它
所训练的硬件有什么了解?DeepSeek。
- DeepSeek 计算集群
Dylan Patel:DeepSeek ⾮常有趣。这是第⼆张,缩⼩他们是谁的票。⾸先,High Flyer 是⼀家
对冲基⾦,历史上在中国和其他地⽅都进⾏过量化交易。他们总是有相当数量的 GPU,对吧。
过去,很多⾼频交易算法量化交易员使⽤ FPGA,但后来转向了 GPU。当然,两者都有,对,
但特别是 GPU,还有 Deep 和 High Flyer,这是拥有 DeepSeek 的对冲基⾦。在某种程度上,
为 DeepSeek ⼯作的每个⼈都是 High Flyer 的⼀部分。对的?呃,同样的,同样的⺟公司,同样
的⽼板,同样的⾸席执⾏官。他们拥有所有这些⽤于交易的资源和基础设施,然后他们将其中巨
⼤的⼀部分⽤于训练模型,包括语⾔模型和其他模型。对的?因为这些,这些,这些技术受到了
⼈⼯智能的严重影响。嗯,你知道,最近⼈们,你知道,意识到,嘿,交易,你知道,就像,甚
⾄,甚⾄当你回到⽂艺复兴和所有这些,所有这些,就像,量化公司。⾃然语⾔处理是快速交易
的关键,对吧?理解新闻稿并做出正确的交易。对的?DeepSeek 在这⽅⾯⼀直很擅⻓。甚⾄早
在 2021 年,他们就有新闻稿和⽂件说,嘿,我们是中国第⼀家拥有这么⼤的 A100 集群的公
司。它是 10,000 个 A100 GPU。对的?这是,这是在 2021 年。现在这不是所有的训练,你知
道,⼤型语⾔模型。这主要是为了训练他们的定量⽅⾯的模型,他们的定量交易以及,你知道,
其中很多是⾃然语⾔处理,需要明确的是。对的?所以这就是历史,对吧?所以可以证实的事实
是,他们在 2021 年建⽴了中国最⼤的集群,⾄少他们声称这是中国最⼤的集群。10000 个 GPU
在出⼝管制开始前。
Nathan Lambert: 是的,就像他们以前有过⼀个巨⼤的集群。任何关于出⼝管制的谈话。
Dylan Patel: 然后你向前⼀步,从那时起,他们在过去的四年⾥做了什么,对吗?显然,他们
继续运作对冲基⾦,可能赚了很多钱。另⼀件事是他们越来越倾向于⼈⼯智能。⾸席执⾏官莱昂
- 成峰。
Nathan Lambert: ⾥昂,你没有把我的位置放在这上⾯。我们讨论过这个。
Dylan Patel:Leon Feng,对,可能是 Lian Fang 的⾸席执⾏官,据说他拥有公司⼀半以上的股
份,对。是⼀个⾮常像埃隆 · 詹森的⼈物,他参与了所有的事情,对吗?所以在那段时间⾥,他
对⼈⼯智能有了真正深⼊的了解。他实际上有点.。就像⼀个。如果你看到他的⼀些陈述,⼏乎有
点 E ACC 的感觉,对吧?
Dylan Patel: 完全的 AGI 共鸣。⽐如,我们需要做这个,我们需要做⼀个开放 AI 的新⽣态。
我们需要中国引领这种⽣态系统,因为从历史上看,⻄⽅国家在软件⽣态系统上⼀直处于领先地
位。他直接承认,为了做到这⼀点,我们需要做⼀些不同的事情。深度探索是他做这件事的⽅式。对他的⼀些翻译采访是。
Lex Frdiman: 所以他接受过采访?
Nathan Lambert: 是的。
Lex Frdiman: 你认为他会接受⻄⽅的采访或者。不。或者有没有控制。
Nathan Lambert: 还没有,但好吧,我会试试。
Lex Frdiman: 我刚刚得到了⼀个中⽂翻译,所以这很棒。这是,这都是推。如此迷⼈的数字⼯
程师充分利⽤⼈⼯智能的成功。
Nathan Lambert: ⾼频,交易⾮常直接的报价,就像我们不会切换到闭源。当被问及这件事
时,⻓期的动机是⼈⼯智能的⽣态系统应该如何运作。我认为从中国的⻆度来看,他希望⼀家中
国公司来构建这⼀愿景。
Dylan Patel: 所以这有点像公司背后的所谓 “有远⻅的⼈”,对吗?这个对冲基⾦还存在吧?这
个,这个定量公司。所以深度探索是那种,你知道,慢慢地他转向了这个全景,就像⼈⼯智能⼀
样,关于这个的⼀切,对吧?但在某个时候,它慢慢地移动了,他进⾏了 DeepSeek。从那时
起,DeepSeek 已经完成了多个模型。他们获得了越来越多的 GPU。他们与基⾦共享基础设
施,对吗?所以,你知道,他们没有确切的公共 GPU 资源数量,但除此之外,他们在 2021 年
购买了 10,000 个 GPU,对吗?他们的利润⾮常丰厚,对吧?然后这篇⽂章声称他们只做了
2000 个 H800 GPU,这是中国以前允许的受限制的 GPU。但不再允许。有⼀个新的版本,但它
基本上是英伟达的 H100 为中国。对的。它有⼀些限制,特别是在通信速度和互连速度⽅⾯。对
的。这就是为什么他们不得不做这个疯狂的 SM 调度的东⻄。对的。所以回到这⼀点,对,就他
们的 GPU 总数⽽⾔,这显然是不正确的,很明显。
Lex Frdiman: 可⽤的 GPU,但对于这次训练运⾏,您认为 2000 是正确的数字或没有。
Dylan Patel: 所以这就是它需要的地⽅,你知道,就像分区⼀样。对的。⽐如你怎么称呼你的
跑步训练?对的。你计算过你做的所有研究和消融吗?对,挑选所有这些东⻄?因为是的,你可
以做 YOLO 运⾏,但在某种程度上,你必须在⼩规模上做测试,然后在⼤规模之前,你必须在中
等规模上做⼀些测试。
Nathan Lambert: 公认的做法是,对于任何给定的模型,这都是⼀个显著的进步。仅在实验
中,您将对完整的训练运⾏进⾏ 2-4 倍的计算。
Lex Frdiman: 因此,许多正在扩⼤规模的计算机可能在很⼤程度上⽤于研究。
Dylan Patel: 是的。你知道,研究会产⽣新的想法,让你获得巨⼤的效率。
Nathan Lambert: 研究让你,哦,就像研究让你取得突破⼀样,你需要在这上⾯下注。
Lex Frdiman: 因此,我们将要讨论的⼀些定价策略已经将研究融⼊到价格中。
Dylan Patel:DeepSeek 特别公开的数字。对的。2021 年只有 10,000 个 GPU,然后 2000
个 GPU 只⽤于 V3 的预训练。他们没有讨论 R1 的成本,也没有讨论所有其他 RL 的成本。对
的。为他们制作的指示模型。对的。他们只讨论了基础模型的预训练,他们没有讨论任何关于研
究和消融的内容,他们也没有讨论任何共享的资源,嘿,基⾦正在使⽤所有这些 GPU,对。我
们知道他们⾮常有利可图,到 2021 年将有 10,000 个 GPU。我们发现的⼀些研究表明,我们
实际上相信他们拥有接近 50,000 个 GPU。
Lex Frdiman: 我们是塞⽶纳⼈。所以我们应该说你是世界上的专家之⼀,在半导体⽅⾯,在集
群构建⽅⾯,在谁在做什么⽅⾯,弄清楚每个⼈都在做什么?在训练跑步⽅⾯。所以,是的,这
就是。我们. 好的,去吧。Dylan Patel: 对不起,对不起。我们相信他们现在实际上拥有接近 50,000 个 GPU。这是在
许多任务中分开的。对的。再次,基⾦研究和消融为棒球场。
Nathan Lambert:OpenAI 或 Anthropic 有多少钱?我认为我们有最清楚的例⼦,因为 Meta 也
是开放的,他们谈论在他们的训练集群中有 60K 到 100K 的 H100 等效 GPU。
Dylan Patel: 对。所以,就像 Llama 3 号⼀样,他们说他们在 16000 H100 上训练。对的。但
是 Meta 公司去年公开披露他们购买了⼤约 40 万个 GPU。是的,没错。那么。所以当然,训练
中的⼀⼩部分,就像⼤多数⼈⼀样,就像为我提供最好的 Instagram 卷轴⼀样。对的。或者别的
什么。对的。
Nathan Lambert: 我的意思是,我们可以讨论成本,⽐如,2000 GPU 集群的拥有成本是多
少?10,000. 就像有不同规模的公司可以负担得起这些东⻄。DeepSeek 相当⼤。他们的计算分
配⽐较是世界上最好的⼏个之⼀。它不是 OpenAI,⼈类等等,但他们有很多计算。
- 对中国的 GPU 出⼝控制
Lex Frdiman: 你能不能把镜头拉远,谈谈 Hopper 架构、NVIDIA Hopper GPU 架构以及 H100
和 H800 之间的区别?就像你提到的互连。
Dylan Patel: 是的。所以,你知道,安培是 A100,然后是 H100 漏⽃。对的。在美国,⼈们把
它们当作同义词来使⽤,因为实际上只有 H100,⽽现在有 H200。对的。但同样的事情,主要是
在中国,他们有两个。有不同的出⼝限制措施。所以最初美国政府限制了两个因素的规模。对
的。即芯⽚互连与触发器。对的。因此,任何具有⾼于某⼀级别的互连和⾼于某⼀级别的浮点运
算的芯⽚都受到限制。后来,政府意识到这是限制中的⼀个缺陷,他们将其削减为只是浮点运
算。
Nathan Lambert: 所以 H800 有⾼ FLOPS,低通信。
Dylan Patel: 完全正确。因此,H800 在 FLOPS 上的性能与 H100 相同。对的。但它没有。它
只是削减了互连带宽。Deepseek 知道如何利⽤这⼀点。你知道,嘿,即使我们削减了互连,我
们也可以做所有这些花哨的东⻄来弄清楚如何充分使⽤ GPU。对的。那是在 2022 年 10 ⽉。但
后来在 2023 年到 2023 年,在 2024 年实施,美国政府禁⽌了 H800。对的。顺便说⼀下,这个
H800 集群,这 2000 个 GPU,甚⾄在 2024 年都没有购买。对。它是在 2023 年底购买的。他
们现在刚刚把模型拿出来。对的。因为这需要⼤量的研究,等等。H800 被禁⽌了,现在有⼀种
新的芯⽚叫做 H20。H20 被削减,只有 FLOPS,但互连带宽是相同的。事实上,在某些⽅⾯,
它⽐ H100 更好,因为它有更好的内存带宽和内存容量。所以,你知道,英伟达是在政府设定的
限制范围内⼯作,然后为中国打造最好的 GPU。
Lex Frdiman: 我们能不能从这个实际的切题出发,回到硬件是出⼝管制的哲学、动机和理由?
那是什么?Daryama Day 刚刚发表了⼀篇关于出⼝管制的博客⽂章。他提出的理由是,如果⼈
⼯智能变得超级强⼤,他说,到 2026 年,我们将拥有 AGI 或超级强⼤的⼈⼯智能,这将产⽣重
⼤影响,⽆论谁建造它,都将拥有重⼤的军事优势。因此,因为美国是⼀个⺠主国家,正如他所
说,中国是威权国家,或者有威权因素,你想要⼀个统⼀的极地世界,在那⾥,由于⼈⼯智能,
超级强⼤的军队是⼀个⺠主国家。这是⼀个更加复杂的世界地缘政治,当你有两个超级强⼤的⼈
⼯智能和⼀个是独裁的超级⼤国。这就是他提出的理由。所以我们想。美国希望利⽤出⼝管制来
放慢速度,以确保中国不能进⾏这些巨⼤的训练,⽽这些训练可能需要建造 AGI。
Dylan Patel: 这很抽象。我认为这可能是⼀些⼈所描述的出⼝管制的⽬标,这是⼀个超级强⼤的⼈⼯智能,你谈到了训练运⾏的想法。中国不能训练⼈⼯智能模型的世界并不多。我认为出⼝
管制正在限制中国所能拥有的计算机数量或密度。如果你想想现在的⼈⼯智能⽣态系统,随着所
有这些⼈⼯智能公司的收⼊数字都在上升,他们的⼈⼯智能使⽤正在继续增⻓。更多的 GPU 将
推断出⼝管制的很⼤⼀部分,如果它们起作⽤的话,在中国可以运⾏的⼈⼯智能的数量将会低得
多。所以在训练⽅⾯,DeepSeek V3 是⼀个很好的例⼦,你有⼀个⾮常专注的团队,仍然可以
到达⼈⼯智能的前沿。在这⼀点上,2000 个 GPU 并不难获得世界上所有的考虑。他们仍然会有
那些 GPU,他们仍然能够训练模型。但是,如果⼈⼯智能将会有⼀个巨⼤的市场,如果你有强
⼤的出⼝控制,并且你想要拥有 100,000 个 GPU,只是服务于具有良好出⼝控制的 ChatGPT
集群,这也使得⼈⼯智能可以被使⽤得更少。我认为这是⼀个更容易实现的⽬标,⽽不是试图讨
论什么是 AGI。如果你有这些⾮常智能的⾃主⼈⼯智能和数据中⼼,这些东⻄可以在美国的
GPU 集群中运⾏,但不能在中国运⾏。
Dylan Patel: 在某种程度上,训练⼀个模型没有任何效果,对吗?⽐如有个模特。达⾥奥所说
的是这种模式的实施,⼀旦经过训练,就会创造巨⼤的经济增⻓,军事能⼒的巨⼤增⻓,巨⼤的
能⼒,⼈⺠⽣产⼒的提⾼,⽣活的改善,⽆论你想把超级强⼤的⼈⼯智能引向什么,你都可以做
到。但这需要⼤量计算,对吧?所以美国政府已经有效地说,永远,对,就像训练将永远是总计
算的⼀部分。你知道,我们提到了 Meta,400,000 个 GPU,只有 16,000 个 Llama ,对。所
以 Meta 致⼒于推理的百分⽐。现在,这可能是因为推荐系统试图让我们的⼤脑花更多的时间观
看更多的⼴告。或者如果它是,如果它是,或者如果它是⼀个超级强⼤的⼈⼯智能,它正在做富
有成效的事情,这与我们的经济系统决定的确切⽤途⽆关。它可以以我们想要的任何⽅式提供任
何东⻄。⽽在中国,对,你知道,你是,你知道,专家限制,很好,你永远不能切断⼀切,对
吗?这就像,我认为美国政府很好地理解了这⼀点,即你不能切断⼀切。
Nathan Lambert: 你知道,他们会⾃⼰做薯⽚。
Dylan Patel: 如果他们试图制造⾃⼰的芯⽚,他们会⽐我们的更糟糕。但你知道,关键是要保
持距离,对吧?因此,在某种程度上,作为⼈⼯智能,你知道,在⼀个经济增⻓ 2.3% 的世界
⾥。顺便说⼀句,这真的很蠢。对的?切断,你知道,⾼科技,不从中赚钱。但在⼀个超级强⼤
的⼈⼯智能出现,然后开始在社会中创造重⼤变化的世界⾥,这是所有⼈⼯智能领导者和⼤型科
技公司所相信的,我认为超级强⼤的⼈⼯智能将会极⼤地改变社会。因此,计算差异的复合效应
⾮常重要。在⼀些科幻⼩说中,⼈⼯智能的衡量标准是有多少能量被传递给计算,或者有多少能
量被传递给计算。这是⼀种思考经济产出是什么的⽅式,你有多⼤的⼒量指向⼈⼯智能。
Dylan Patel: 我们是否应该讨论推理模型,作为⼀种⽅法,这可能是可操作的,因为⼈们可以
实际看到?所以 R1 和 O1 的推理模型,它们被设计成使⽤更多的计算。在⼈⼯智能社区⾥有很
多关于测试时间、计算、推理时间、计算机等等的热⻔词汇。但迪伦对此有很好的研究。你可以
得到关于具体数字的⽐例。当你训练⼀个模型时,你可以看看训练时使⽤的计算量和推理时使⽤
的计算量。这些推理模型使得推理在完成复杂任务时变得更加重要。去年秋天,也就是 12 ⽉,
OpenAI 发布了这款 O3 模型。在⼈⼯智能中还有另⼀件事,当事情进展得很快时,我们会得到
公告和发布。公告本质上是博客⽂章,你拍拍⾃⼰的背,说你做了⼀些事情,然后发布在模型
上,在报纸上,等等。所以 OpenAI 已经宣布了 O3,我们可以检查 o3-mini 是否有可能退出录
制。但这并没有真正改变这⼀点,那就是突破性的结果是所谓的 ARC AGI 任务,这是抽象推理
语料库,⼀个通⽤⼈⼯智能的任务。弗朗索瓦 · 夏勒特就是那个。这是⼀篇多年的⽼论⽂,它是
⼀个辉煌的基准。OpenAI03 解决这个问题的⽅法是,它在 API 中使⽤了⼀定数量的样本。API在样本数量上有思考的努⼒。他们⽤了 1000 个样本来解决这个问题,结果是每个问题 5 到 20
美元,你把它放在⼀个有效的数学难题中,然后回答⼀个问题需要⼏美元。这需要⼤量计算机。
如果这要在美国起⻜,OpenAI 需要⼤量的 GPU 进⾏推理来捕捉这⼀点。他们有这个 OpenAI
ChatGPT Pro 订阅,每⽉ 200 美元,⼭姆。
Dylan Patel: 说他们正在亏损,这意味着。
Nathan Lambert: ⼈们在基础设施上消耗了⼤量的 GPU。我已经注册了它,我玩过它,我不认
为我是⼀个超级⽤户,但我使⽤它。这就像是⼀家拥有中等强度出⼝管制的中国公司,总是会有
漏洞,可能根本⽆法做到这⼀点。如果 O3 的主要结果也是惊⼈的编码性能,如果这反馈到⼈⼯
智能公司能够更好地进⾏实验。
Lex Frdiman: 所以⼤概的想法是,对于 AGI 来说,更⼤⼀部分的计算将⽤于这个测试时间,
计算 AGI 的推理进⼊⼀个房间,思考如何接管世界,并在 2.7 ⼩时内返回,这将需要⼤量的计
算。
Nathan Lambert: 这就是⼈们,OpenAI 和 Anthropic 的领导者所谈论的⾃主⼈⼯智能模型,即
你给他们⼀个任务,他们在后台⼯作。我认为我个⼈对 AGI 的定义要简单得多。我认为语⾔模型
是 AGI 的⼀种形式,所有这些超级强⼤的东⻄都是下⼀步,如果我们有这些⼯具,那就太好了,
但语⾔模型有如此多的价值和领域。这对我来说是⼀种普遍的智慧。但下⼀步,他们是独⽴的,
他们可以做训练数据中没有的任务,这是这些⼈⼯智能公司正在推动的未来⼏年的前景。
Lex Frdiman: 我认为达拉 · 达⾥奥在这⾥使⽤的术语是超级强⼤的⼈⼯智能。所以我同意你对
AGI 的看法。我认为我们已经有了⼀些⾮常令⼈印象深刻的东⻄,艾伦 · 图灵肯定会说是 AGI,
但他更多地是指⼀旦拥有了某种东⻄,你就会⽐其他国家拥有显著的军事和地缘政治优势。所以
这不仅仅是你可以问它如何做煎蛋卷。
Nathan Lambert: 在他的散⽂《爱与恩典的机器》中,他的观点要积极得多。读进这个。我没
有⾜够的物理科学背景来准确衡量我的能⼒。如果⼈⼯智能可以彻底改变⽣物学,我可以肯定地
说,⼈⼯智能将加速任何计算科学的进步。
- AGI 时间线
Lex Frdiman: 所以我们在这⾥做了⼀个深度优先搜索,主题是取切线的切线。所以让我们继续
深度优先搜索。你说你们都感觉到了 AGI,所以你,你的时间线是什么?达⾥奥的 2026 年,对
于超级强⼤的⼈⼯智能来说,你知道,这基本上是⼀个真正的安全威胁。AGI 的⽔平,你的,你
的时间线是什么?
Dylan Patel: 我不喜欢归因于具体的能⼒,因为预测具体的能⼒和时间是⾮常困难的。我认
为,如果你要说我对 AGI 的感觉是,我预计未来⼏年将继续取得快速、令⼈惊讶的进展。因此,
像 R1 这样的东⻄对我来说并不那么令⼈惊讶,因为我预计会有新的范例,可以取得实质性的进
展。我认为 DeepSeek R1 是如此令⼈不安,因为我们在 ChatGPT 的这条道路上。感觉越来越
好了,越来越好了,越来越好了。然后我们有⼀个改变模型的新⽅向。我们像这样⾛了⼀步,⼜
往上⾛了⼀步,所以看起来像是⼀个⾮常快的斜坡。然后我们要采取更多的步骤。所以当你迈出
这些⼤的⼀步时,你会感到⾮常不安。我希望这种情况继续发⽣。我试过 OpenAI 操作员,我试
过克劳德电脑使⽤。他们还没到。我理解这个想法,但很难预测什么突破能让这样的东⻄成功。
我认为更有可能的是,我们有了有效的突破,以及我们不知道他们会做什么的事情。所以每个⼈
都想要经纪⼈。达⾥奥⽤⾮常雄辩的⽅式描述了这⼀点。我只是在想,好像会有⽐这更多的东⻄。所以期待这些事情的到来吧。
Lex Frdiman: 我将不得不试着把你固定在 AGI 时间线上的⼀个⽇期,⽐如核武器时刻。所以
在地缘政治舞台上有⼀个真正的时刻,你知道,因为我们在谈论出⼝管制。你认为什么时候才能
放弃约会,你认为那会是什么时候?喜欢?对我来说,可能是在 2030 年之后。所以我不是,正
如我所说的,所以定义它。
Dylan Patel: 对。因为对我来说,这⼏乎已经发⽣了。
Nathan Lambert: 对。
Dylan Patel: 你看看印度和巴基斯坦的选举,⼈们接到⼈⼯智能语⾳电话,认为他们在与政治
家交谈。对的。《⼈⼯智能扩散规则》(AI Diffusion Rules)是在拜登政府执政的最后⼏周颁布
的,看起来特朗普政府将保持甚⾄可能加强对云计算和 GPU 销售的限制,这些国家甚⾄与中国
⽆关。这就像,这就是葡萄⽛。
Nathan Lambert: 这些国家和普通国家⼀样都在名单上,你需要得到美国的批准。
Dylan Patel: 就像,是的,葡萄⽛,就像,你知道,就像,就像所有这些盟国,对吗?新加
坡,对吧?就像他们⼀样,他们有 F35,我们不让他们买 GPU。喜欢,这是,这对我来说已经
是喜欢的规模,你知道。
Lex Frdiman: 嗯,这只是意味着美国军⽅对这项新技术感到⾮常紧张。这并不意味着技术已经
存在。所以,他们可能只是对他们不太理解的事情⾮常谨慎。但这是⼀个⾮常好的观点。在某种
程度上,机器⼈电话,成群的半智能机器⼈可能是⼀种武器,可以做很多社会⼯程。
Dylan Patel: 我的意思是,有很多关于 2016 年选举的讨论,⽐如剑桥分析和所有这些东⻄,
俄罗斯的影响。我的意思是,世界上每个国家都在把东⻄推到互联⽹上,都有他们想要的故事,
对吧?就像每⼀个。每个⼈都有技术能⼒,⽆论是俄罗斯,中国,美国,以⾊列,等等。对的。
你知道,⼈们正在把观点推到互联⽹上,语⾔模型摧毁了听起来⾮常智能的语⾔的成本。
Nathan Lambert: 有⼀些研究表明,分布实际上是限制因素。所以语⾔模型还没有制造错误信
息,特别是改变那⾥的等式。互联⽹仍在进⾏中。我想有⼀个博客,AI Snake Oil,还有我在普
林斯顿的⼀些朋友写了这些东⻄。所以有研究。这是每个⼈都认为的默认情况,我认为同样的事
情是,错误信息不会随着语⾔模型⽽变得更糟。我认为,就互联⽹上的帖⼦和⼈们⼀直在测量的
东⻄⽽⾔,它并没有呈指数增⻓,也没有⾮常可测量的东⻄,你谈论的语⾳通话之类的东⻄,可
能是更难测量的形式。所以现在下结论还为时过早。我认为这就像⽹络上的政治不稳定⼀样。很
多研究⼈员都在监测它,看看发⽣了什么。我想你问的是 AGI 的事。如果你让我给你⼀年的时
间,我会说,好吧,我有⼈⼯智能的⾸席执⾏官这样说。他们说两年已经有⼀段时间了。我认为
像达⾥奥这样的⼈。⾸席执⾏官对此进⾏了深刻的思考。我需要认真对待他们的话,但也要理解
他们的不同。所以我想,再加上⼏年,这就是你如何得到类似于 2030 年或 2030 年之后的东
⻄。
Dylan Patel: 我认为在某种程度上,我们的能⼒达到了⼀定的程度,任何⼀个⼈都可以说,
哦,好吧,如果我能在 X 时间内利⽤这些能⼒,这就是 AGI,对吗?称之为 27,28。但是实际
操作这种能⼒的成本。
Nathan Lambert: 是的,这将是我的观点。
Dylan Patel: 太极端了,以⾄于没有⼈能真正⼤规模地部署它,只需点击⼀下,弹指⼀挥,就
能彻底改变经济。所以我不认为这会像弹指间的瞬间,身体上的束缚。相反,它将是⼀个,你知
道,哦,功能在这⾥,但我不能到处部署它,对吗?所以⼀个简单的例⼦可以追溯到 2023 年,你知道,当带有 GPT4 的 Bing 出现时,每个⼈都对搜索感到恐慌,对吧?困惑出来了。如果你
在每个⾕歌搜索中实现 GPT3 的成本,就像是,哦,好吧,这在物理上是不可能实现的,对吧?
当我们向前⼀步,回到测试时间计算的事情上,对吗?⼀个问题,你知道,你问了 ChatGPT ⼀
个问题,它花费了美分,对吗?他们最有能⼒的聊天模式,对吧?不过,要返回⼀个查询来解决
⼀个 ARC AGI 问题,需要花费 5 到 20 美元,对吗?这是,这是⼀个 A。
Nathan Lambert: 它只是从那⾥开始上升。
Dylan Patel: 响应查询与执⾏任务的成本相差 1000,10000 倍。Arc AGI 的任务并不像,它在
某种程度上很简单,但它也像,我们想要的任务是什么?好的,阿吉,我们今天所拥有的可以在
三年后成为阿吉。它可以做更复杂的问题,但成本将以成千上万美元的 GPU 时间来衡量。没有
⾜够强⼤的 GPU 基础设施来操作它,因此弹指间就能改变世界上的⼀切。但在那⼀刻,谁来约
束控制并将 AGI 指向任务?所以在达⾥奥的帖⼦中,他说,嘿,中国可以⽐美国更有效、更快地
将他们的 AGI 指向军事任务,对吗?他们在许多⽅⾯更快地将某些新技术应⽤到他们的军队中。
对的。尤其是在⽆⼈机⽅⾯。对的。美国可能有⼀个⻓期存在的⼤型空中战⽃机类型的东⻄,轰
炸机,但当涉及到不对称武器,如⽆⼈机,他们已经完全超越了美国和⻄⽅。我认为,达⾥奥指
出的担忧是,是的,很好,我们将在商业领域拥有 AGI。美国军⽅不可能很快实施它。中国军队
可以,他们可以把所有的资源都⽤于在军队中实施它,从⽽解决军事后勤或解决针对某些⼈的虚
假信息的其他⽅⾯,这样他们就可以颠覆⼀个国家的政治或类似的东⻄,这实际上是灾难性的,
⽽美国只是想这样做,因为它将被更多地分配给最⾼的收⼊回报,这可能是建造更好的⼯⼚或其
他东⻄。
Lex Frdiman: 所以我所看到的⼀切,⼈们的直觉似乎在机器⼈技术上失败了。所以你有这种普
遍的乐观主义。我在⾃动驾驶汽⻋上看到过这个。⼈们认为这个问题⽐实际容易得多。与⽆⼈机
类似,我对它的理解有点少,但我刚刚看到了乌克兰战争的现实和双⽅对⽆⼈机的使⽤。看起来
⼈类仍然远远胜过任何完全⾃主的系统。⼈⼯智能是⼀个助⼿,但⼈类驾驶 FPV ⽆⼈机,⽽⼈
类控制的⼤部分⽆⼈机远远超过⼈⼯智能系统。所以我认为,我们很快就会拥有⼤批⾃主机器
⼈,这⼀点对我来说并不明显。在军事背景下,也许我能想象的最快的时间是 2030 年,这就是
为什么我说 2030 年是超级强⼤的⼈⼯智能。每当你有⼤规模的机器⼈做军事⾏动时,世界就开
始看起来不⼀样了。所以这才是我真正担⼼的事情。但可能会有⽹络战争,⽹络战争类型的技
术,从社会⼯程到实际上只是成群的机器⼈,在我们的代码库中找到攻击媒介,并关闭电⽹,诸
如此类的东⻄。这可能是其中的⼀件事,⽐如在任何⼀个周末,停电了,没有⼈知道为什么,世
界永远改变了。只要全美停电两天,就会导致谋杀和混乱。但回到出⼝管制,你是否认为这是在
⼈⼯智能背景下控制地缘政治⼒量平衡的⼀种有⽤⽅式?
- 中国的⽣产能⼒
Dylan Patel: 我想回到我的观点,如果你相信我们正处于经济增⻓和变⾰的阶段,我们已经经
历了 20 年。出⼝管制是中国赢得⻓期胜利的绝对保证。对的。如果你不相信⼈⼯智能会在未来
10 年或 5 年内给社会带来重⼤变化,那么 5 年的时间表就是更多⼈⼯智能公司甚⾄⼤型科技公
司的⾼管们所相信的。但即使是 10 年的时间表,这也是合理的。但是⼀旦你到了,嘿,这些时
间线低于那个时间段,那么唯⼀能为美国和中国创造相当⼤的优势或劣势的⽅法就是限制计算。
因为天赋并不是什么真正的束缚。对的。中国可以说有更多的⼈才。对的。更多 STEM 毕业⽣,
更多程序员。美国可以利⽤世界⼈⺠,它确实做到了这⼀点。你知道,在⼈⼯智能⾏业有很多外国⼈。
Nathan Lambert: 很多⼈⼯智能团队都是没有美国护照的⼈。
Dylan Patel: 是的,是的。我的意思是,他们中的许多⼈是移居美国的中国⼈。对的。那,那
太好了。这正是我们想要的。对的。但⼈才是⼀个⽅⾯,但我不认为这对美国来说是⼀个可衡量
的优势。真的是。只是现在是否计算,甚⾄在计算⽅⾯,当我们看芯⽚与数据中⼼时,对。中国
拥有前所未有的能⼒,可以建⽴数量惊⼈的⼒量。发条装置。他们总是建⽴越来越多的权⼒。他
们的钢铁⼚的规模相当于整个美国⼯业的规模,他们的铝⼚消耗千兆瓦和千兆瓦的电⼒。当我们
谈论什么是最⼤的数据中⼼时。OpenAI 做了这个关于星际之⻔的⼤事,他们的声明。有,那不
是,那就像⼀旦它完全建成,⼏年后它将是 2 千兆瓦。对的。权⼒。对的。这仍然⽐中国最⼤的
⼯业设施要⼩。对的。中国,如果他们想建⽴世界上最⼤的数据中⼼,如果他们能获得芯⽚,就
可以。所以这不仅仅是,这只是⼀个何时的问题,⽽不是是否的问题。对的。
Lex Frdiman: 所以他们的⼯业能⼒远远超过美国。
Dylan Patel: 完全正确。
Lex Frdiman: 制造东⻄。所以为什么,为什么。所以从⻓远来看,他们将在那⾥制造芯⽚。
Dylan Patel: 芯⽚更专业⼀些。我特别指的是数据中⼼。对的。芯⽚,晶圆⼚需要⼤量的能
量。不要误解我的意思,这不⼀定是⻔控因素。今天在美国,⼈们能以多快的速度建⽴最⼤的集
群的关键因素是权⼒,对吧?⽆论是现在,还是发电,输电,变电站,你知道,所有这些
Transformer 和所有这些建设数据中⼼的东⻄。这些都限制了美国⼯业界建⽴越来越⼤的训练系
统以及部署越来越多的推理计算的能⼒。
Nathan Lambert: 我认为我们需要把这⼀点说清楚,为什么现在是⼈们不考虑这个问题的时候
了。因为本质上是出⼝管制,所以中国⽆法制造或获得尖端芯⽚。这个想法是,如果你的时间错
了,中国会在他们的芯⽚⽣产上投⼊⼤量资⾦。如果你的时机不对,他们将会有更多的⽣产能
⼒,更多的能源能⼒,并弄清楚如何制造芯⽚,并⽐世界其他地⽅有更多的能⼒来制造芯⽚。因
为每个⼈都可以买,他们会把中国芯⽚卖给每个⼈。他们可能会资助他们。因此,如果⼈⼯智能
需要很⻓时间才能变得与众不同,我们就已经毁掉了美国公司的财务表现。英伟达可以少卖,台
积电不能卖给中国。因此,我们有更少的需求,从⽽继续推动⽣产周期。这就是时间背后的假
设。
Dylan Patel: 时间为 10 年以下或 5 年以上,对。从⻓远来看,中国将因为这些限制⽽获胜,
除⾮⼈⼯智能在短期内做⼀些事情,我相信⼈⼯智能会这样做,在中期,短期内给社会带来巨⼤
的变化,对吗?这就是最⼤的解锁器。即使在今天,对,如果决定让天平起球,对,那就是决定
天平定律是最重要的,对吗?就像萨蒂亚 · 纳德拉和⻢克 · 扎克伯格等美国⾼管⼀样,桑达尔和
所有这些最⼤、最强⼤的科技公司的美国⾼管都决定扩⼤规模,他们正在建设数⼗亿瓦的数据中
⼼,对吗?不管是在德克萨斯州、路易斯安那州还是威斯康星州,不管是在哪⾥,他们都在建造
这些庞⼤的东⻄,其成本相当于他们在⼀个地⽅建⽴全球数据中⼼的全部预算,对吗?这就是他
们为明年、后年等等所做的承诺。所以他们⾮常确信这就是⽅法,这就是他们正在做的。但如果
中国决定这样做,他们可以⽐我们做得更快。但这就是限制的来源。⽬前尚不清楚,中国作为⼀
个整体是否已经决定,你知道,从最⾼层来看,这是⼀个优先事项。美国算是有。对的。你知
道,你看到特朗普在同⼀周内谈论深度探索和星际之⻔。对的。所以他在拜登政府中也有很多讨
论,关于⼈⼯智能等的讨论。很明显他们在考虑这件事。就在上周,DeepSeek 会⻅了中国的⼆
把⼿。对的。就像他们还没⻅过⾼层⼀样。对的。还没⻅过喜喜还没坐下来。他们刚刚发放了⼀万亿⼈⺠币的补贴,你知道,⼤约 1600 亿美元,这更接近微软、Meta 和⾕歌的⽀出总和。对
的。今年的。所以这就像他们,他们,他们现在才意识到。但这正是出⼝限制的作⽤所在, 嘿,
你不能,你不能把最强⼤的美国芯⽚运到中国。你可以运送⼀个精简的版本。你可以,你不能把
最强⼤的芯⽚运送到所有这些国家,我们知道这些国家只会把它租给中国。你必须限制数量。对
的。⼯具和制造⼯具⼀样,所有这些,所有这些不同的⽅⾯。但这⼀切都源于⼈⼯智能。然后在
⼈⼯智能和整个半导体限制中,下游可以减慢它们的速度,你读它们,它们是⾮常清楚的。它是
关于⼈⼯智能与军⺠融合的技术。对的?很清楚。然后从那⾥开始,哦,我们禁⽌他们购买光刻
⼯具、蚀刻⼯具和沉积⼯具,哦,你知道,这个随机的⼦系统来⾃⼀个随机的公司,就像 Tiny。
对的?⽐如,我们为什么要禁⽌这个?因为所有这些,美国政府已经决定对⼈⼯智能系统⾄关重
要。
Nathan Lambert: 我认为⽀点是从 7 纳⽶到 5 纳⽶芯⽚的过渡。我认为是华为在⼏年前推出了
7 纳⽶芯⽚,这引起了另⼀场政治⻛波,就像这⼀刻⼀样。然后是 ASML 深紫外线。那是什么?
Dylan Patel: 在芯⽚上设置上下⽂的极紫外光刻。对的。Nathan 所指的是在 2020 年,华为发
布了他们的 Ascend 910 芯⽚,这是⼀款⼈⼯智能芯⽚,在⾕歌和英伟达之前,这是第⼀款 7 纳
⽶的芯⽚。他们把它提交给了 MLPerf 基准测试,这是机器学习性能基准测试的⾏业标准。它做
得很好,是提交时最好的筹码。对的。这是⼀件⼤事。特朗普政府,当然被禁⽌了。那是 2019
的事了,对吧?禁⽌华为从台积电获得 7 纳⽶芯⽚。因此,他们不得不转⽽使⽤国内⽣产的芯
⽚,这是⼀个多年的挫折。
Nathan Lambert: 许多公司已经做了 7 纳⽶芯⽚。问题是,我们不知道华为为芯⽚⽣产提供了
多少补贴。像英特尔已经制造了 7 纳⽶芯⽚,这是⽆利可图的。这就是这⼀切如何反馈到出⼝管
制的经济引擎中。
- 美中冷战
Lex Frdiman: 嗯,你是说 XXX 现在还没有感觉到 AGI,但感觉像是 DeepSeek 时刻。是的,
我的,就像现在可能会有会议,他会开始穿同样的 T 恤,事情会升级。
Dylan Patel: 我的意思是像这样。他可能上周就醒了。对的。Leon Fang 会⻅了副主席,副主
席,第⼆个指挥官,他们开了⼀次会,然后第⼆天他们宣布了⼈⼯智能补贴,这是万亿⼈⺠币。
对的。
Lex Frdiman: 因此,这个深海时刻可能真的是冷战的开始。
Nathan Lambert: 这正是很多⼈所担⼼的。⼈⼯智能领域的⼈⼀直担⼼这会⾛向冷战,或者已
经是这样了。
Lex Frdiman: 但是,这不是 DeepSeek 的错,但确实有问题。⼀堆因素聚集在⼀起爆炸。我
的意思是,这⼀切都可能与英伟达股票下跌有关,但这只是⼀些集体歇斯底⾥的发⽣,最终导致
举⾏会议,并意识到这⼀想法。
Dylan Patel: 美国政府在 2022 年 10 ⽉ 7 ⽇意识到了这⼀点,在 10 ⽉ 7 ⽇ ChatGPT 发布这
⼀限制之前,这⼀限制被取消了,震惊了所有⼈,这显然是针对⼈⼯智能的。每个⼈都说,你到
底在⼲什么?
Nathan Lambert: 稳定扩散在那时是不存在的。但不是 ChatGPT。
Dylan Patel: 是的,但不是聊天。
Nathan Lambert: 所以就像是开始。Dylan Patel: 关于 Genai 能对社会做什么的传⾔。但很明显,我认为⾄少对国家安全委员会和
那些⼈来说,这是世界发展的⽅向,这是正在发⽣的冷战。
Lex Frdiman: 那么,是否有⼈担⼼出⼝管制会促使中国对台湾采取军事⾏动?
Dylan Patel: 这是,这是最⼤的⻛险。对的。你越是阻⽌中国获得美国和全球的尖端技术,他
们就越有可能说:“好吧,因为我不能获得它,我也希望没有⼈应该获得它。” 对的。有⼀些有趣
的⽅⾯,对吧?就像,你知道,中国的城乡差距是其他国家所没有的。他们的男⼥出⽣⽐例是独
⼀⽆⼆的。你知道,如果你看看中国的⼤部分地区,就会发现这个⽐例并不是那么糟糕。但当你
看到中国农村的单身男性时,你会发现这个⽐例是 30 ⽐ 1。那些是被剥夺公⺠权的⼈,对吧?
就像引⽤不引⽤⼀样,就像美国有⼀个像中国⼀样的问题。他们只是以某种⽅式被安抚,或者被
切割,被碾碎。你怎么处理这些⼈?同时,你也不能接触到最重要的技术。⾄少美国这么认为。
中国可能开始认为这是最重要的技术,并开始对其进⾏补贴,对吗?他们认为电动汽⻋和可再⽣
能源是最重要的技术。他们现在占主导地位。现在他们开始思考这个问题,在 2010 年代末和 21
世纪初,他们开始思考半导体,现在他们⼀直在抛售资⾦,他们正在迅速赶上,他们将在⼈⼯智
能⽅⾯做同样的事情,因为他们⾮常有天赋。对的。所以,所以,问题是,这什么时候会达到临
界点?如果中国认为这是,嘿,他们可以继续,如果不能进⼊并开始⼀场真正的热战,接管台湾
或试图以某种⽅式颠覆其⺠主或封锁它对世界其他地区的伤害远远⼤于对他们的伤害,这是他们
可能会做的事情。对的?那么,这是否有可能推动他们⾛向这⼀⽬标?对的。我不完全是⼀个地
缘政治的⼈,但你知道,很明显,世界和平和贸易制度对经济来说是超级可怕的,但是, 但在某
些时候它可能会破裂。
Nathan Lambert: 对吗?我认为我们应该评论⼀下,为什么中国经济会受到伤害,因为他们的
出⼝很重。我认为美国买了很多东⻄,就像如果它消失了,就像他们的经济⼀样。
Dylan Patel: 嗯,他们也不能从世界各地进⼝原材料。对的?美国会关闭⻢六甲海峡,与此同
时,整个美国,你可以说,⾃ 70 年代以来,美国⼏乎所有的 GDP 增⻓都是⼈⼝增⻓或科技增
⻓。对的?因为你知道,你今天的⽣活并不⽐ 80 年代科技之外的⼈好多少,对吧。你仍然,你
知道,你知道,汽⻋,它们到处都有半导体,冰箱,到处都有半导体,这些有趣的故事是关于俄
罗斯⼈如何拆开洗⾐机,因为他们有某些,⽐如德州仪器的芯⽚,然后他们可以重新利⽤并投⼊
到他们的反导弹导弹的东⻄中,对,⽐如他们的 S400 或其他东⻄。你会知道更多关于这个的。
但是有各种各样的关于半导体的⼀切都是我们⽣活中不可或缺的⼀部分。
- 台积电与台湾
Lex Frdiman: 你能解释⼀下台积电在半导体⾏业中扮演的⻆⾊,以及美国如何打破对台积电的
依赖吗?
Dylan Patel: 我不认为这⼀定会打破这种依赖。我认为这是让台积电在美国⽣产,但退⼀步
说,台积电⽣产世界上⼤部分的芯⽚。特别是在铸造⽅⾯。有很多公司制造⾃⼰的芯⽚。三星
(Samsung)、英特尔(Intel)、意法半导体(STMicro)、德州仪器(Texas Instruments)、
模拟设备(Analog Devices),所有这类公司都在制造⾃⼰的芯⽚和 XP。但越来越多的公司将
业务外包给台积电,⽽且这种情况已经持续了⼏⼗年。
Lex Frdiman: 你能解释⼀下那⾥的供应链以及台积电在制造⽅⾯的⼤部分⼯作吗?
Dylan Patel: 当然。所以从历史上看,供应链是公司制造⾃⼰的芯⽚,你知道,这是⼀家公
司,他们开始制造⾃⼰的芯⽚,然后他们设计芯⽚,制造芯⽚并销售。随着时间的推移,这变得⾮常困难,因为建造晶圆⼚的成本每⼀代都在增加。当然,技术,弄清楚它的技术是⾮常困难
的。但仅仅是所需的美元和美分,忽略了,你知道,说,嘿,是的,我有所有的技术能⼒,顺便
说⼀句,这真的很难得到,对吧?英特尔的失败,三星的失败,等等。但如果你只看建造下⼀代
晶圆⼚所花费的美元,它会持续增⻓,对吧?有点像,你知道,摩尔定律是每两年芯⽚成本减
半。有⼀条单独的法律,有点像每隔⼏年就把晶圆⼚的成本增加⼀倍。所以你看看⼀个领先的晶
圆⼚,它今天将是盈利的,它正在建造,你知道,3 纳⽶芯⽚或 2 纳⽶芯⽚在未来,这将花费超
过 300 亿美元,400 亿美元。对的。这只是象征性的⼀笔钱。这就像,这就像基地建设封锁可能
需要建⽴多个。对的。所以当你回顾过去的⾏业时,你知道,如果我回到 20、30 年前,有 20、
30 家公司可以制造最先进的芯⽚,然后他们会⾃⼰设计并销售它们,对吗?所以像 AMD 这样的
公司会制造⾃⼰的芯⽚。当然,英特尔仍然在制造⾃⼰的芯⽚。他们⾮常有名的。IBM 会制造他
们⾃⼰的芯⽚,你知道,你可以继续往下看。所有这些公司都制造了⾃⼰的芯⽚。慢慢地,它们
像苍蝇⼀样不断坠落。这是因为台积电所做的,对吗?他们创造了代⼯的商业模式,也就是说,
我不会去设计任何芯⽚。 我只是去为其他⼈承包制造商的芯⽚。他们的早期客户之⼀是英伟达,
对吧?英伟达是唯⼀⼀家价值超过 10 亿美元的半导体公司。那是在铸造时代开始的,对吧?所
有其他公司都是在那之前开始的,在某个时候都有晶圆⼚,这实际上是不可思议的,对吧?你知
道,像 AMD,英特尔和博通,这样⼀个伟⼤的包。这就像每个⼈在某个时候都有晶圆⼚,或
者,你知道,你知道,像博通这样的公司,这就像是各种公司的合并。但即使在今天,博通也有
晶圆⼚,对吧?他们在科罗拉多州为苹果公司⽣产 iPhone,射频,⽆线电芯⽚,对吗?这些公
司都有晶圆⼚。对于⼤多数晶圆⼚来说,他们把它们扔掉或卖掉,或者把它们卷进别的东⻄⾥。
现在⼤家都依赖台积电,对吧?包括英特尔。他们最新的个⼈电脑芯⽚⽤的是台积电芯⽚,对
吧?它也使⽤了⼀些英特尔芯⽚,但它使⽤的是台积电⼯艺。
Lex Frdiman: 你能解释⼀下为什么代⼯模式对这些公司如此成功吗?他们为什么要追求规模经
济?范围?
Dylan Patel: 是的。我是说,就像我提到的,对吧?建造⼀座晶圆⼚的成本是如此之⾼,研发
是如此之难。当你看到这些公司有⾃⼰的垂直堆栈时,有⼀个反编码过程,好吧,我对每个特定
的芯⽚都是⾼度定制的,对吧?但随着我们经历了电⼦和半导体过去 50 年的历史,你需要越来
越多的专业化,对吧?因为摩尔定律已经死了,丹纳德标度也死了。I. 芯⽚不会因为免费⽽变得
更好,对吧?你知道,从制造业开始,你必须做出真正的建筑创新,对吧?⾕歌不仅仅是在英特
尔 CPU 上运⾏⽹络服务。他们有 YouTube 芯⽚,他们有 TPU,他们有像素芯⽚。他们有各种
各样的芯⽚,你知道,产⽣了⾕歌所有的经济价值,对吧?运⾏,你知道,它运⾏所有的服务和
东⻄。所以,这只是⾕歌,你可以看到这个⾏业中的任何⼀家公司。是这样的,对吗?汽⻋包含
5000 个芯⽚,你知道,200 种不同的芯⽚,对吧?所有这些随机的东⻄。特斯拉的⻔把⼿有两
个芯⽚,对吧?就像它很可笑,它是⼀个很酷的⻔把⼿,对吗?这就像,你知道,你不会去想
它,但它就像,有两个真正的筹码,像便⼠⼀样的筹码,对吗?总之,当你有更多的芯⽚时,当
你有更多的专业化需求时,晶圆⼚的成本持续增⻓时,你需要⼀个专注于构建最佳⼯艺技术并使
其尽可能灵活的⼈。
Dylan Patel: 我认为你可以简单地说,每个晶圆⼚的成本上升,如果你是⼀个⼩玩家,⽣产⼏
种类型的芯⽚,你不会有偿还晶圆⼚成本的需求。然⽽,英伟达可以拥有许多不同的客户,并将
所有这些需求集中到⼀个地⽅,然后他们是唯⼀⼀个能赚到⾜够的钱来建造下⼀个晶圆⼚的⼈。
所以这就是为什么这些公司慢慢地被杀死了。因为他们在 10 年前就有了⼀种芯⽚,这种芯⽚是有利可图的,⽽且⾜够好,但制造下⼀个芯⽚的成本就会上升。他们可能会尝试这样做失败,因
为他们没有钱让它⼯作,然后他们没有任何芯⽚,或者他们建造它,它太昂贵了,他们只是。
Dylan Patel: 有或他们运⾏,有更多的故障点,对吗?你可能有⼀个与某种化学蚀刻有关的⼩
过程,或者某种等离⼦蚀刻,或者⼀些搞砸了的⼩过程,你没有设计它,对吗?现在整个公司分
崩离析。你不会做薯⽚,对吧?所以像英特尔这样超级强⼤的公司,他们就像⻛化⻛暴⼀样,他
们今天仍然存在,即使他们在六、七年前搞砸了他们的制造。但就像 AMD,他们⼏乎破产了。
他们不得不把⼯⼚卖给阿联酋的莫巴达拉,对吗?就这样,它变成了⼀家独⽴的公司,叫做
GlobalFoundries,这是⼀家铸造公司。然后 AMD 能够专注于像这样的回报,让我们专注于为不
同的市场制造芯⽚和⼀堆不同的芯⽚,专注于特定的⼯作负载,⽽不是,你知道,所有这些不同
的东⻄。所以你可以得到更多样化的芯⽚。设计芯⽚的公司⽐以往任何时候都多,但制造芯⽚的
公司却⽐以往任何时候都少,对吗?这就是台积电的⽤武之地,他们是最好的,对吧?他们很擅
⻓这个,对吧?他们以客户为中⼼。他们让你很容易制造你的芯⽚。他们拿⾛了所有的复杂性,
并试图从你那⾥抽象出很多东⻄。他们赚了很多钱。他们不会疯狂地赚钱,但他们会赚很多钱。
⽽且,他们能够聚集所有这些需求,并继续建⽴下⼀个晶圆⼚。下⼀个晶圆⼚。下⼀个晶圆⼚。
Lex Frdiman: 为什么台湾对台积电来说如此特殊?为什么会发⽣在那⾥?它能在美国国内复制
吗?
Dylan Patel: 是的,所以有些⽅⾯我会说是,有些⽅⾯我会说不是。对的?台积电(TSMC)
遥遥领先,因为你知道,德州仪器(Texas Instruments)的前⾼管莫尔斯 · 张(Morse Chang)
没有被提升为⾸席执⾏官。他说,去他的,我要去做我⾃⼰的芯⽚公司。对的?他去了台湾,做
了台积电,对吧?还有,还有更多的故事。所以他可能是德州仪器,可能是,你知道,可能是台
积电,但德州半导体制造,对吧?⽽不是,你知道,德州仪器,对不对?但是,你知道,整个故
事都在那⾥,但坐在这⾥。
Lex Frdiman: 德克萨斯,我的意思是,这听起来像是⼀个⼈类的故事,好像它没有得到推⼴。
Nathan Lambert: 正是张忠谋的才华,你知道,我不会轻描淡写。但也有不同的层⾯,⽐如如
何,如何⼯作,对吧?所以在台湾,你知道,就像去最好的学校的学⽣的最⾼百分⽐的毕业⽣,
也就是台⼤,这些学⽣的最⾼百分⽐都去了台积电⼯作,对吗?猜猜他们的⼯资是多少,他们的
起薪⼤概是 8 万美元,7 万美元,对吧?这就像,这就像美国优秀毕业⽣的起薪,对吗?不,不
是顶尖的,顶尖的毕业⽣在⾕歌和亚⻢逊赚了⼏⼗万美元,现在我想全世界都睁开了眼睛,对
吧?所以,有⼀个很⼤的⼆分法,⽐如,社会上最富有的 1% 的⼈在做什么,由于经济原因,他
们要去哪⾥,对吗?英特尔从来没有付过那么多钱,对吧?这对他们来说毫⽆意义。对的?这
是,这是⼀个⽅⾯,对吧?最好的⼈去哪⾥?其次是职业道德,对吧?⽐如,你知道,我们喜欢
⼯作。你知道,你⼯作很忙,我们也很忙。但是在⼀天结束的时候,你知道,当,当你做的⼯作
的时间和数量是什么,⼀个⼯⼚需要什么,对吗?⼯⼚不是在家⼯作。他们是,你进⼊了⼯⼚和
艰苦的⼯作,对不对?有,有,嘿,如果有任何振动,对,地震发⽣了,振动了机器,它们都,
你知道,它们要么坏了,你已经报废了⼀些产品,然后在很多情况下,它们没有正确校准。所
以,所以当台积电,当发⽣地震时,对,最近发⽣了地震。台积电不会给员⼯打电话。他们只
是,他们只是去了⼯⼚,就像他们只是出现了,停⻋场被撞坏了,⼈们只是去⼯⼚修理它,对
吗?就像⼿臂,就像蚂蚁,对吗?就像,你知道,⼀群蚂蚁不会被蚁后命令去做什么。蚂蚁就是
知道。
Dylan Patel: 这就像⼀个⼈只专注于这⼀项任务,就像你要拿着这⼀件⼯具,你就是世界上最好的⼈,这就是你⼀⽣要做的事情,这就是⼯⼚⾥的⼀项任务,这就是。
Dylan Patel: 就像⼀些特殊的化学加上纳⽶制造,在⼀条⼯具线上不断迭代。是的,这就像,
这就像去除⼆氧化硅的特定等离⼦体蚀刻,对吗?这就是你整个职业⽣涯所关注的。它就像是⼀
种特殊的东⻄。所以任务并不是可以转移的。今天的⼈⼯智能很棒,因为⼈们可以像那样拿起
它。半导体制造是⾮常陈旧和困难的。没有⼀种材料是在线的,可以让⼈们轻松阅读和学习的,
对吗?这些⽂件⾮常密集,需要⼤量的经验才能学习。因此,这也使得进⼊⻔槛更⾼。所以当你
谈到,嘿,你有这些超级专业的⼈,他们会在⼯⼚⾥每周⼯作 80 个⼩时,对吧?在⼀个⼯⼚
⾥。如果出了什么问题,他们会在半夜出现,因为地震了,他们的妻⼦说,地震了。他说,太好
了,我要去晶圆⼚。作为⼀个美国⼈,你会这么做吗?这就像这类事情,你知道,我想这就是例
证,就像为什么台积电如此神奇。现在你能在美国复制它吗?让我们不要忽视英特尔是 20 多年
来制造业的领导者。他们⾸先将每⼀项技术推向市场,除了 EUV、应变硅、⾼ K ⾦属栅极、
FinFET,你知道,英特尔⾸先推向市场的技术不胜枚举,从中赚了最多的钱,并⾸先⼤规模⽣
产,最好的,最⾼的利润率,对吧?所以我们不应该忽视英特尔做不到这⼀点,对吧?这是⽂化
已经打破了,对不对?你投资了错误的东⻄。他们对 iPhone 说不。他们,他们有很多不同的事
情,⽐如,你知道,晶圆⼚管理不善,设计管理不善,这次封锁,对吧?同时,所有这些才华横
溢的⼈,对吗?有 5 万个博⼠,你知道, 或者在俄勒冈州从事特定化学或物理过程或纳⽶制造
过程⼏⼗年的⼤师们,他们仍然在那⾥,他们仍然在创造惊⼈的⼯作。这就像让它以⾼产量进⼊
⽣产的最后⼀英⾥,在那⾥你可以设计,在那⾥你可以制造⼏⼗种和⼏百种不同的芯⽚,你知
道,它的良好客户体验已经被打破了,对吧?你知道,这就是客户体验。这就像它的⼀部分,就
像⼈们会说英特尔在 2000 年代,2010 年代太浮夸了,对吗?他们只是觉得⾃⼰⽐所有⼈都强。
⼯具师说,哦,我不认为这个,这个还不够成熟。他们就像,你只是不知道。我们知道,对吧?
这种事情会发⽣的。美国也可以把它带到。美国能把领先的半导体制造业带到美国吗?是的。对
的?我们是对的。
Nathan Lambert: 随着时间的推移,亚利桑那州正在变得越来越好。
Dylan Patel: 你知道,台积电⽬前已经在美国建⽴了⼤约 20% 的 5 纳⽶产能。这还远远不够,
对吧?你知道,在美国 20% 的容量就像什么都没有,对吧?此外,这仍然依赖于台湾的存在,
对吗?有⼀种重要的⽅法可以把它分离出来。有研发,也有⼤批量⽣产。实际上,世界上有三个
地⽅正在进⾏前沿研发。有新⽵,台湾,有希尔斯伯勒,俄勒冈州,还有平壤,韩国,对吗?这
三个地⽅正在为世界其他地⽅的尖端半导体进⾏尖端研发,现在,制造可以更多地分布在全球。
这就是这种⼆分法存在的地⽅,⽐如谁在修改这个过程,谁在开发下⼀代。改善他们的是新⽵,
是希尔斯伯勒,是平壤。对的。不是像亚利桑那州的其他晶圆⼚,对吧?亚利桑那是⼀个镇纸。
如果⼼树在⼀年,⼀年,⼏年内从地球上消失,亚利桑那州也会停⽌⽣产,对吗?这实际上相当
关键。我想说的⼀件事是,如果我有⼏枚导弹,我就能确切地知道我能在哪⾥造成最⼤的经济损
失。对的?它不是针对⽩宫的,对吧?
发⾔⼈甲:是研发中⼼。
Dylan Patel: 这是台积电、英特尔、三星的研发中⼼,然后是⼀些内存公司,美光和海⼒⼠,
因为。
Lex Frdiman: 他们定义了这些半导体的未来发展。⼀切都在⻜速发展,从根本上说,这都是关
于研发的,都是关于台积电的。啊哈?
Dylan Patel: 所以台积电,你知道,你不能购买没有台积电芯⽚的⻋辆,对吗?你不能购买没有台积电芯⽚的冰箱。你不能,你可以,你喜欢。讽刺的是,我认为你能买到的为数不多的东⻄
之⼀是德州仪器(Texas Instruments),⽐如图形计算器,对吧?因为他们实际上是在德克萨斯
州⽣产的。但除此之外,⽐如笔记本电脑,电话,你服务的任何东⻄,对吧?GPU,这些东⻄都
不可能存在。这是没有,没有台积电。在许多情况下,它甚⾄不像前沿,你知道,性感的 5 纳⽶
芯⽚,3 纳⽶芯⽚,2 纳⽶芯⽚。通常情况下,它就像⼀些愚蠢的电源 IC,就像从⼀个电压转换
到另⼀个电压。对的。它是台积电制造的,对吧?
Nathan Lambert: 就像中国正在投资的⼀样。这就像他们可以建⽴这个⻓尾⼯⼚,那⾥的技术
更为⼈所知。你不需要解决 EUV 的这些问题。他们在这⽅⾯投资,然后他们有⼤量的供应,⽐
如汽⻋⻔把⼿和随机的东⻄。这也渗透到了整个经济讨论中,即他们拥有的⽐我们多得多。有这
样的东⻄供应对正常⽣活⾄关重要。
Lex Frdiman: 所以他们正在做,他们开始投资⼤批量⽣产,但他们没有做研发。所以他们做
了。
Dylan Patel:R 和 D ⾃⼰。他们就在后⾯。对的。所以我想说,就像在 2015 年,中国有⼀个
五年计划,他们确定了到 2025 年和 2020 年的某些⽬标,包括 80% 的国内半导体⽣产。他们不
会,他们不会打那个,对,要清楚。但他们在某些地区⾮常⾮常接近,对吧?就像⽐亚迪可能会
成为世界上第⼀家不必使⽤台积电制造芯⽚的公司,因为他们有⾃⼰的晶圆⼚,对,制造芯⽚。
现在他们仍然需要从国外购买⼀些芯⽚,例如⾃动驾驶的 ADAS 功能,因为这些都是⾮常⾼端
的。但⾄少你知道,就像内燃机有 40 个芯⽚和⼀个电动汽⻋,只是为了控制流速和所有这些东
⻄。电动汽⻋甚⾄更加复杂。因此,所有这些不同的电源 IC 和电池管理控制器以及所有这些东
⻄都是内包的,对吗?这是中国⾃ 2015 年以来⼀直在做的事情。现在,就像后缘⼀样,他们在
那⾥获得了如此多的容量。直到前缘,右边。I.E。这个 5 纳⽶等等,对。他们仍然落后于
GPU,这是。美国的限制措施正试图在后者中阻⽌他们。但是你知道,所有发⽣的事情,你知
道,是的,他们已经减慢了 5 纳⽶,3 纳⽶等等,但是他们已经加速了他们的,嘿,45 纳⽶,
90 纳⽶功率 IC 或模拟 IC,或者你知道,我的键盘上的随机芯⽚,对。那种东⻄。所以,所以有
⼀个⻆度,就像美国的⾏动⼀直如此。从这些出⼝来看,你知道,从出⼝管制的⻆度来看,它是
如此具有煽动性,减缓了中国在领先地位上的进步,他们已经转过身来,加快了他们在其他地⽅
的进步,因为他们知道这是如此重要,对吧。 如果美国要把他们锁在这⾥,或者如果他们把我们
也锁在这⾥。所以回到过去,美国能在这⾥建造它吗?是的,但这需要⼀⼤笔钱,我真的想这么
做。彻底改⾰和完全内包半导体将需要⼗年时间和⼀万亿美元。
Lex Frdiman: 是不是也有⼀些⽂化,就像你说的,在台湾,极端的能⼒,极端的职业道德。
Nathan Lambert: 我认为,如果你有需求,⽽且钱在线上,美国公司会想办法解决。这需要与
政府保持联系。但我认为,这种⽂化有助于台积电取得突破,对他们来说也更容易。你可以。
Dylan Patel: 台积电⼤约有 9 万名员⼯。这实际上并不是⼀个疯狂的数额。亚利桑那晶圆⼚有
3000 名来⾃台湾的员⼯。这些⼈,就像,他们的妻⼦说,是的,我们不会有孩⼦,除⾮我们。
你报名参加亚利桑那晶圆⼚。我们去亚利桑那州,我们的孩⼦在那⾥。还有⼀家⽇本晶圆⼚也发
⽣了同样的事情。对的?所以,就像,这些妻⼦开⻋,就像,这些,就像,这些男⼈,就像,去
⽇本或美国⽣孩⼦。它就像,它是⽂化的⼀个元素。是的,当然,台湾⼯作很努⼒。⽽且,就像
美国过去所做的那样。他们现在就可以做。对的。你知道,我们可以只进⼝。我说,如果我们愿
意,可以引进世界上最好的⼈才。
Lex Frdiman: 这就是移⺠对话的棘⼿之处。关于这⼀点有很多争论。但是,是的,引进世界上最好的⼈似乎是荒谬的争议。我不明⽩为什么这会引起争议。那是. 那是获胜的⽅法之⼀。
Nathan Lambert: 我肯定我们同意你的观点。
Dylan Patel: ⽽且,即使你不能引进这些⼈,我仍然认为如果有钱的话,你可以在美国做很多
事情来制造⼤部分产品,对吗?
Dylan Patel: 所以它要贵得多。它在很⻓⼀段时间内都不盈利。
Dylan Patel: 这就是 CHIPS 法案的背景,相对于⼀些可再⽣能源,你知道,在通货膨胀削减法
案和基础设施法案中通过的倡议,总共有数千亿美元,CHIPS 法案只有 500 亿美元。对的。所
以,美国花在半导体产业上的钱是。什么都没有。对的?⽽所有其他国家在职业道德和⼯作量等
⽅⾯都有结构性优势。但也有⼀些 STEM 毕业⽣,他们最好的百分位去那⾥。对的?但他们也有
不同之处,⽐如,嘿,法律中只有税收优惠,⽽且已经有 20 年了。对的。所以,然后,然后⼀
些国家有⼤量的补贴。对的。中国每年⼤约有 2000 亿美元的半导体补贴。我们谈论的是美国的
500 亿美元,⼤约 6 美元。对。所以,腰围或补贴⾦额的差异也是巨⼤的。对的。所以我认为,
你知道,特朗普最近⼀直在谈论对台湾征收关税。你知道,这有点像这样的事情,哦,好吧,好
吧,就像,你知道,也许他不想补贴半导体⾏业,很明显,台湾的关税将会花费很多东⻄,变得
更加昂贵。但这会改变台积电在美国建造更多晶圆⼚的⽅程式吗?这就是他的假设。对的。
Lex Frdiman: 所以你能摆出。所以我们列出了重要性,顺便说⼀句,你对这么多东⻄的了解令
⼈难以置信。
Nathan Lambert: 我们告诉过你,迪伦知道所有的事情。
Dylan Patel: 是的。
Lex Frdiman: 那么,好的,你阐述了为什么台积电⾮常重要。如果我们展望未来,10 年、20
年后,美中关系似乎可以⾛向冷战、冷战升级、甚⾄热战的⿊暗境地,或者⾛向从亦敌亦友到合
作再到共同努⼒的美好境地。那么在这个博弈论中,复杂的博弈,有哪些不同的轨迹?我们应该
做什么?你认为美中关系可能有哪些不同的发展轨迹?随着两位领导⼈开始越来越多地感受到
AGI,并看到芯⽚的重要性和重要性。
Nathan Lambert: 我的意思是,出⼝管制最终指向⼀个独⽴的未来经济。我认为,美国已经向
中国领导⼈明确表示,我们打算不惜以全球经济⼀体化为代价来控制这⼀技术。所以很难放松,
就像牌已经打到了同样的程度。
发⾔⼈丙:他们还限制美国公司进⼊中国。对的?所以它是,它是。你知道,这是⼀个漫⻓的过
程。你知道,在某种程度上,你知道,有,有⼀个融合,对不对?但是,⾄少在过去的⼗年⾥,
它的分⽀越来越远,对吗?就像美国公司不能进⼊中国⼀样,中国公司也不能进⼊美国。美国在
说,嘿,中国,你不能在某些领域获得我们的技术。中国⽤同样的事情来反驳,⽐如,你知道,
他们已经做了⼀些特定的材料,你知道,镓和类似的东⻄,他们试图限制美国的⼀个。有⼀家美
国⽆⼈机公司不允许购买电池,他们有类似的军事客户。这家⽆⼈机公司只是告诉军⽅客户,
嘿,从亚⻢逊买就⾏了,因为我不能亲⾃去买。对的。就像所有这些正在发⽣的事情都指向越来
越远的分歧。我没有任何想法,如果我们都能⼿牵⼿唱 Kumbaya,我会很⾼兴,但我不知道这
怎么可能发⽣。
Lex Frdiman: 分歧对避免战争是好是坏?有没有可能,在制造商芯⽚⽅⾯的分歧,训练⼈⼯智
能系统实际上有利于避免军事。
发⾔⼈丙:世界是有史以来最和平的,这是客观事实。当有全球霸主的时候,对吧?或者是地区
霸主,对吧?在历史背景下,对吧?当罗⻢⼈在地中海的时候,那⾥是最和平的,对吗?中国有过⾮常和平和战争的时期。在和平时期,王朝不仅控制着⾃⼰,还控制着周围的所有⽀流。对
的?同样,⼈类历史上最和平的时期是美国成为全球霸主的时期,对吗?在过去的⼏⼗年⾥,我
们已经看到事情开始下滑,俄罗斯,乌克兰,中东正在发⽣的事情,你知道,台湾⻛险,所有这
些不同的事情都开始冒泡。还是客观的,极其平和。现在,当它不是⼀个全球霸主,⽽是两个
时,显然会发⽣什么。⽽且,你知道,中国将,你知道,有竞争⼒,甚⾄超过美国,就像这是可
能的,对不对?所以这个,这个全球霸权的变化,我不认为它会⾮常和平地发⽣。当帝国衰落
时,这对美国来说是⼀个可能的轨迹,他们不会优雅地倒下。他们不会从⽆关紧要的地⽅溜⾛。
通常会有很多震动。因此,美国试图做的是保持其最⾼地位,⽽中国试图做的是成为最⾼地位。
很明显,⽤最简单的话来说,这⾥有顶撞。
Lex Frdiman: 这可能会以各种⽅式形成,包括代理⼈战争。
Nathan Lambert: 好像已经发⽣了。尽管我希望有⼏个世纪的⻓期和平,但看起来国际上还会
有进⼀步的不稳定。
Dylan Patel: 美国⽬前的任务是,嘿,如果我们控制了⼈⼯智能,如果我们是⼈⼯智能的领导
者,并且⼈⼯智能显著加快了进步,那么我们就可以保持全球霸权地位。因此,我希望这能起作
⽤。作为⼀个美国⼈,就像,你知道,有点像,好吧,我想这会带来和平,我们的和平。很明
显,世界上的其他⼈也受到了负⾯影响。你知道,很明显,如果发⽣这种情况,中国⼈⺠将不会
处于有利地位。但是,你知道,这是⼀种现实,就像,正在做的事情和正在执⾏的⾏动。
- 最好的 AI GPU
Lex Frdiman: 那么我们可以回到不同硬件的具体细节上吗?在导出控制中有这个漂亮的图形,
哪些 GPU 允许导出,哪些不允许导出。你能从技术的⻆度解释⼀下其中的区别吗?H20 有前途
吗?
Dylan Patel: 是的。所以这就开始了。我认为我们必须喜欢,我们需要真正深⼊到推理⽅⾯,
以及那⾥发⽣了什么。但是 H20,你知道,美国已经经历了出⼝管制的多次迭代,对吧?这个
H800 在 23 年的时候被允许,但后来它被取消了,到那时 DeepSeek 已经建⽴了他们的集群。他们声称有 2K。我认为他们实际上有更多的东⻄,⽐如 10K。现在这个 H20 是法律允许的芯
⽚,对吗?英伟达去年向中国出⼝了 100 万台。对的。对于上下⽂,有⼤约 400 万或 500 万个
GPU,对吗?所以中国特有的 GPU 的百分⽐,H20 是相当⾼的,对吧?⼤概是 20%,25%。
对,20% 左右。所以这个 H20 在某种程度上被阉割了,但它实际上在其他⽅⾯得到了升级,对
吧?你知道,你可以想象沿着⼈⼯智能的三个轴的芯⽚,对吧?你知道,忽略软件堆栈,喜欢精
确的架构,只是原始的规范。有浮点运算,对吧?FLOPS,在内存容量中有内存带宽,对吗?爱
娥,对吗?记忆。然后还有互联,对吧?芯⽚到芯⽚互连。这三点对于制造⼈⼯智能系统都⾮常
重要,对吧?因为⼈⼯智能系统涉及到⼤量计算,它们涉及到⼤量的移动内存,⽆论是内存还是
其他芯⽚,对吧?所以这三个⽮量,美国最初控制了其中两个⽮量,其中⼀个没有控制,这就是
FLOPS。和互连带宽最初受到控制。然后他们说,不,我们要去掉互连带宽,只做⼀个⾮常简单
的触发器。但现在英伟达现在可以制造⼀种芯⽚,好吧,它减少了失败。它是 H100 在规格纸上
的 1/3,在现实世界中的 FLOPS 性能,它接近⼀半,甚⾄可能是 60%。对的?但是在另外两个
⽮量上, 它在互连带宽和内存带宽和内存容量⽅⾯同样出⾊,H20 ⽐ H100 具有更⼤的内存带宽
和内存容量。对的?最近,你知道,我们,我们在我们的研究中,我们⼤幅削减了英伟达今年
H20 的产量。他们今年打算再做 200 万个。但⼏周前他们取消了所有的订单。在我们看来。这是
因为我们认为他们认为他们会受到限制。对的。因为他们为什么要取消所有 H20 的订单?因为
他们去年卖出了⼀百万个。他们今年有⼏百万的订单,然后就⾛了。对的。对于 H20,B20。对
的。H20 的继任者。现在他们都⾛了。他们为什么要这么做?对的。我想这很清楚,对吗?H20
实际上更适合某些任务。⽽这个特定的任务就是推理。对的。当你看到模型的不同状态时,推理
是⾮常不同的。对的。赛前训练都是关于翻牌的。对的?都是关于失败的。你可以做⼀些事情,
⽐如我们谈到的混合专家来权衡互连或权衡其他⽅⾯,降低 FLOPS,更多地依赖互连和内存。
但说到底,失败就是⼀切。对的。我们谈论的模型是根据它们有多少次翻牌。对的。所以我们
说,GPT4 是 2E25。对的。2 到 25,25 个零。触发器浮点操作。
Dylan Patel: 为了训练。
Dylan Patel: 为了训练。对的。我们讨论的是 2E24 的限制。对的。25 随便。美国有⼀项特朗
普最近未签署的⾏政命令,那就是,嘿,1E26。⼀旦你达到了浮点运算的数量,你必须通知政
府,你必须与我们分享你的结果。对的。就像有⼀种模式,美国政府必须被告知。对的。那就是
1E26。所以在我们前进的过程中,这是⾮常重要的。失败是政府历来关⼼的载体。但其他两个载
体可以说同样重要。对的。特别是当我们来到这个新的范例时,世界在过去的六个⽉⾥才刚刚了
解到。对的。推理。
Lex Frdiman: 我们是否完全理解三个维度中哪⼀个最适合推理?所以互连,FLOPS 并不重
要。是记忆吗?
Dylan Patel: 记忆,对,是的。⻓度。我们很快就会进⼊技术层⾯。
Dylan Patel: 这⾥⾯有两篇⽂章,我可以展示⼀下,也许你可以把有趣的图⽚拿出来给听众
看。
Lex Frdiman: 我们正在看 O1 推理架构标记组学的部分。
Dylan Patel: 在我们讨论这个之前,你想解释⼀下 KVCache 吗?我认为最好是。
Nathan Lambert: 好的,是的,我们需要通过很多具体的技术⼿段,Transformer 来让⼈们更
容易做到这⼀点。
Dylan Patel: 因为它⾮常重要。因为这改变了模型的⼯作⽅式。但我认为重置。对的。为什么记忆如此重要?这是因为到⽬前为⽌,我们已经讨论了参数计数。对的。和专家混合。您可以更
改活动参数与总参数的数量,以嵌⼊更多数据,但具有更少的 FLOPS。但更重要的是,你知
道,另⼀个⽅⾯,你知道,在过去⼏年⾥,这场巨⼤⾰命的⼀部分是 Transformer。对的。和注
意⼒机制。注意机制是模型理解上下⽂中所有单词之间的关系。对的。那就是。这与参数本身是
分开的。对的。那就是。这是你必须计算的东⻄。对的。显示每个令牌。对的。上下⽂⻓度中的
每个单词彼此相对连接。对的。我认为,Nathan,你应该更好地解释 KVCache。
Lex Frdiman:KVCache 是其中⼀项优化。
Dylan Patel: 是的。
Nathan Lambert: 所以注意⼒操作符有三个核⼼。它是查询、键和值。QKV 是进⼊这个领域的
东⻄。你会看到这个⽅程,你会看到这些矩阵相乘。“ query ”、“ key ” 和 “ value ” 这些词来⾃信
息检索背景,其中查询是您试图获取其值的事物。你访问的键和值是重新加权的。我的背景不是
信息检索之类的。有反向链接很有趣。实际上,当你做这些矩阵乘法时,你得到的矩阵的⼤⼩就
是上下⽂的⻓度。因此,您放⼊模型和 KVCache 中的令牌数量实际上是模型中所有先前令牌的
某种形式的压缩表示。所以当你这样做的时候,我们谈论⾃回归模型。你⼀次预测⼀个代币。你
从你的提示开始。你会问这样的问题:谁是 1825 年的总统?然后,模型将⽣成其第⼀个令牌。
对于这些标记中的每⼀个,您都在执⾏相同的注意操作符,其中您将这些查询键值矩阵相乘。但
是数学是⾮常好的,所以当你重复这样做的时候,这个 kvcache,这个键值操作,你可以不断地
向它附加新的值。所以你要记录你在这个⾃回归链中推断的先前的值。你⼀直把它记在脑⼦⾥。
在⼤规模服务推理时,这是⼀件⾮常重要的事情。在这⽅⾯有更⼤的专家,有这么多层次的细
节,你可以进⼊。从本质上讲,注意⼒操作符和转换器的主要缺点之⼀是存在与上下⽂⻓度成⽐
例的⼆次记忆成本。因此,当你提出较⻓的问题时,为了进⾏计算⽽使⽤的内存以⼆次⽅的形式
增加。 你会听到很多其他的语⾔模型架构,就像次⼆次或线性注意形式,就像状态空间模型。我
们现在不需要把这些都拿下来。然后是注意⼒⽅⾯的创新,使这种内存使⽤和⻓时间关注的能⼒
更加准确和⾼效。
Lex Frdiman: 这些创新将帮助你,我的意思是你的记忆⾼度受限。
Nathan Lambert: 它们有助于解决内存限制和性能问题。所以如果你把⼀本书放进。我认为双
⼦座是⼈们使⽤的上下⽂⻓度最⻓的模型。双⼦座以 100 万和现在的 200 万上下⽂⻓度⽽闻
名。你把⼀整本书放进双⼦座,有时它会从中引出事实。它并不完美。他们越来越好了。所以有
两件事。第⼀,为了能够在内存级别上提供服务,⾕歌拥有神奇的 TPU 堆栈,他们可以提供⾮
常⻓的上下⽂。在此过程中也有许多决策,以实际使⻓期接触性能发挥作⽤,从⽽提供数据。注
意⼒的计算发⽣了微妙的变化,它改变了体系结构。但是服务于⻓时间的上下⽂是⾮常受记忆限
制的,尤其是当你做了很多预测的时候。实际上,我不知道为什么输⼊和输出令牌更昂贵,但我
认为从本质上来说,输出令牌必须进⾏更多的计算,因为您必须从模型中采样。
Dylan Patel: 我可以解释。所以今天,如果你使⽤⼀个模型,就像你看⼀个 API ⼀样,OpenAI
每百万个代币收取⼀定的价格,对吗?输⼊代币和输出代币的价格是不同的。原因是,当你在模
型中输⼊⼀个查询时,你知道的,对吧?假设你有⼀本书,对吗?你现在必须计算这本书的整个
kV 缓存,对吗?这个键值缓存。所以当你这样做的时候,这是⼀个并⾏操作。所有的代币都可
以⼀次性处理,因此你可以⼤⼤减少你的花费。对的?⽣成令牌和输⼊令牌的 FLOP 要求是相同
的,对吗?如果我输⼊⼀个令牌或⽣成⼀个令牌,它完全相同。我必须通过模型,对不对?但不
同的是,我可以这样做。输⼊,那就是预填充,那就是批量性质的同时提示,对吧?因此⼀切都失败了。
Lex Frdiman: 我认为他们主要⽤于输⼊代币的定价模型⼤约是输出代币价格的四分之⼀。
Dylan Patel: 对吗?但是输出令牌,它如此昂贵的原因是因为我不能并⾏操作,对吗?它是⾃
回归的。每次我⽣成⼀个令牌时,我不仅必须获取整个,我还必须将整个模型读⼊内存并激活
它,对吗?去计算它以⽣成下⼀个令牌。我还必须读取整个 kV 缓存,并⽣成⼀个令牌,然后我
附加我⽣成的⼀个令牌和它的 kV 缓存,然后我再做⼀次。对的?因此,这是⼀个⾮并⾏操作,
在预填充或提示的情况下,您必须将整个模型拉⼊,并⼀次计算 20,000 个令牌,对吗?
Dylan Patel: 这些都是 API 提供的功能,就像即时缓存,预先填充,因为你可以降低价格,如
果你知道你要保留,你可以让 API 更快,如果你经营⼀家企业,你要继续将相同的初始内容传递
给克劳德的 API,你可以将其加载到 Anthropic API 中,并始终保留在那⾥。但这与我们引导推
理模型⾮常不同,我们之前展示了这个例⼦,并阅读了⼀些含糊的东⻄。发⽣的情况是,输出上
下⽂的⻓度要⾼得多。我从 Dylan 的⼯作中学到了很多,本质上是当输出⻓度变得更⾼时,你会
根据使⽤的内存和我们拥有的 GPU 来写这个⼆次⽅,实际上你会⽤完内存,它们都试图同时服
务多个请求。因此,在不是所有的提示都完全相同的情况下进⾏批处理,处理起来⾮常复杂。然
后随着上下⽂⻓度变得更⻓,我想你称之为关键批量⼤⼩,你服务更多⽤户的能⼒,所以你可以
并⾏化你的推理的程度因为这个⻓期合同⽽直线下降。所以你的内存使⽤随着这些推理模型⽽上
升,你仍然有很多⽤户。所以实际上,服务成本乘以⼀吨。
Lex Frdiman: 我们在看⼀张图,X 轴是序列⻓度,即。
Dylan Patel:E. 正在⽣成多少个令牌提示,对吗?所以如果我放进⼀本书⾥,那就是⼀百万个
代币,对吗?但你知道,如果我放进去,你知道,天空是蓝⾊的,那就像六个代币或什么的。
Lex Frdiman: 我们应该说,我们所说的推理和思维链正在延⻓这个序列的⻓度。
Nathan Lambert: 主要是输出。
Dylan Patel: 三个⽉前,每当 O1 发布时,所有⻓上下⽂⻓度的⽤例都是这样的,让我把⼤量
的⽂档放进去,然后得到⼀个答案,对吗?它是⼀个单⼀的,你知道,预填充,并⾏计算很多,
然后输出⼀点点。现在有了推理和代理,这是⼀个⾮常不同的想法,相反,我可能只有,嘿,做
这个任务或者我可能有所有这些⽂件。但在⼀天结束的时候,模型不只是像⽣产⼀点点,对吧?
它产⽣了⼤量的信息。这⼀连串的想法只是继续去,去,去,去。所以序列⻓度实际上是,你知
道,如果它⽣成了 10,000 个令牌,它就是 10,000 个序列⻓度,对吗?或者,加上你在提示
符中输⼊的任何内容。这张图显示的是对数图,对吗?当你从 1K 增⻓到 4K 或 4K 增⻓到 16K
时,你的 kV 缓存的内存需求增⻓如此之快,以⾄于你最终⽆法运⾏⼀定数量的序列⻓度,或者
你可以看到的⽤户数量,⽐如说模型。
Nathan Lambert: 这是 405B 的照⽚。
Lex Frdiman: 型号和批量⼤⼩ 64Llama 31 405B。
Nathan Lambert: 是的。批量⼤⼩对他们来说⾄关重要,就像你想要有更⾼的批量⼤⼩来并⾏
化⼀样。
Dylan Patel: 同时处理 64 个不同的⽤户,对吗?
Nathan Lambert: 是的。
Dylan Patel: 因此你们的服务成本更低,对吗?因为服务器的成本是⼀样的。对的。这是 8 个
H1 100,每个 GPU ⼤约每⼩时 2 美元。每⼩时 16 美元,对吗?也就是说,这有点像固定成
本。当然,你可以做⼀些事情让它更低,但就像现在每⼩时 16 美元,你能服务多少⽤户?您可以⽣成多少个令牌?然后你把两者分开,这就是你的成本。对的。在推理模型中,这就是复杂性
产⽣的原因,也是记忆如此重要的原因。因为如果你只有有限的内存,那么你就不能为这么多的
⽤户服务。如果你的内存有限,你的服务速度就会降低。对的。所以你的成本变得⾮常⾮常糟
糕,因为突然之间,如果我习惯了,嘿,在这个每⼩时 16 美元的服务器上,我在服务 Llama
405B,或者如果我在服务,你知道,DeepSeek V3,它是所有聊天⻛格的应⽤程序,那就是我
们只是在聊天。序列⻓度是⼏千,⼏千,对吗?你知道,当你使⽤⼀个语⾔模型时,⼤部分时间
都是⼏千个上下⽂⻓度。有时你会丢弃⼀份⼤⽂件,但当你处理它时,你会得到答案,然后把它
扔掉,对吗?你继续做下⼀件事,对吗?⽽通过推理,我现在可以按顺序⽣成成千上万个标记,
对吗?所以这个,这个内存,这个 kV 缓存必须保持常驻,你必须不断加载它。你必须保持它,
不断地保持它在记忆中。现在这就把其他⽤户排除在外了,对吧?如果现在有⼀个推理任务,并
且模型能够进⾏推理,那么突然之间,内存压⼒意味着我不能同时为许多⽤户提供服务。
Nathan Lambert: 让我们再次进⼊ DeepSeek。所以我认为,我们在 DeepSeek R 之后有⼀
次,这个市场有两个⽅⾯。看着它有多难伺候。⼀⽅⾯,我们将讨论 DeepSeek 本身。他们现在
有⼀个聊天应⽤程序,在应⽤程序商店中排名第⼀。App Store 上的第⼀条免责声明是⽤速度来
衡量的。因此,这并不是说拥有 DeepSeek 应⽤程序的⼈⽐拥有 ChatGPT 应⽤程序的⼈多,但
它仍然是值得注意的。克劳德从来没有在应⽤程序商店中排名第⼀,即使旧⾦⼭的每个⼈都说,
哦,我的上帝,你必须使⽤克劳德,不要使⽤ ChatGPT。所以 DeepSeek 击中了这个。他们最
近还推出了⼀个 API 产品,您可以 ping 他们的 API,并获得 R1 的超⻓响应。在这些东⻄出来的
同时,我们会知道它们发⽣了什么。因为 Deepsea R1 的模型重量是公开可⽤的,并且许可证⾮
常友好。商业上可⽤的 MIT 许可证。所有这些中型公司和⼤型公司都在努⼒成为第⼀个为其⽤户
提供 R1 服务的公司。我们试图评估 R1,因为我们正在进⾏类似的研究。我们发布了这个模
型,我们试图与它进⾏⽐较,在所有为 R1 提供服务的公司中,他们的价格⽐ DeepSeek API ⾼
得多,他们中的⼤多数⼏乎不起作⽤,⽽且吞吐量⾮常低。
- 为什么 DeepSeek 这么便宜
Dylan Patel: 给出上下⽂,对吧,各位。其中⼀个让⼈抓狂的部分是中国达到了能⼒。另⼀个
⽅⾯是他们做得很便宜,对吧?我们在训练⽅⾯讨论了为什么这么便宜。
Lex Frdiman: 是的,让我们谈谈为什么它这么便宜。在推论上,它⼯作得很好,⽽且很便宜。
为什么 R1 这么便宜?
Dylan Patel: 所以我认为这⾥有⼏个因素,对吗?⼀个是他们确实有模型架构创新,对吧?这
个 MLA,他们所做的这个新的注意⼒与注意⼒是不同的,注意⼒是你现在所需要的转变我们的注
意⼒。其他⼈已经创新了。有很多⼯作,⽐如 MQA,GQA,本地和全球。所有这些不同的创新
都试图改变曲线,对吧?它仍然是⼆次的,但常数变⼩了。对的?
Dylan Patel: 与我们之前的讨论相关,这种多头潜在注意⼒可以从注意⼒机制中节省⼤约 80%
到 90% 的记忆,这在⻓时间的语境中尤其有⽤。
Dylan Patel: 与原来的相⽐,这是 80% 到 90%。但与⼈们实际所做的相⽐。这仍然是⼀种创
新。
Nathan Lambert: 这个 80% 到 90% 并不是说整个模型便宜了 80% 到 90%。只有这⼀部分。
Dylan Patel: 嗯,不仅仅是这样,对吗?像其他⼈⼀样,已经实现了局部、全局、滑动窗⼝和
GQ MQA 等技术。但⽆论如何,就像 DeepSeek ⼀样,他们的注意⼒机制是⼀种真正的架构创新。他们做了⼤量的实验,这⼤⼤降低了内存压⼒。它还在那⾥,对吗?它仍然是⼀个⼆次⽅
程。这仍然是⼀种紧张。它仍然是⼆次的。相对于以前的形式,它只是⼤⼤减少了它。
Lex Frdiman: 对吗?这就是内存压⼒,我应该说,以防⼈们不知道 R1 ⽐ 01 便宜 27 倍。
Nathan Lambert: 我们认为 OpenAI 有很⼤的空间。好的,所以有很多因素。我们应该分解因
素。
Lex Frdiman: 我认为 R1 的每百万代币产出为 2 美元,每百万代币产出为 60 美元。4,01.
Nathan Lambert: 是的,让我们看看这个。
Dylan Patel: 所以,所以我认为这是⾮常重要的,对吗?你知道,OpenAI 是 DeepSeek 和定
价之间巨⼤差距。但是 DeepSeek 提供了相同的模型,因为他们以⾮常相似的价格向其他所有⼈
开放重量,⽐其他⼈能够提供的价格低得多。对的?所以这⾥有两个因素,对吧?他们的模型更
便宜,对吗?它便宜 27 倍。嗯,我记不起确切的数字了。
Lex Frdiman: 所以我们正在看⼀张图,它显示了服务于 V3 的不同位置,DeepSeek V3,它类
似于 DeepSeek R1。⽽且在服务成本上有很⼤的差异。服务成本。如何解释这种差异呢?
Dylan Patel:OpenAI 有很⼤的优势,对吧?当他们在做推理时,他们在服务。他们的⽑利润率
超过 75%。对的?所以这是成本差异的 4 到 5 倍的因素,OpenAI 只是赚了⼀⼤笔钱,因为他们
是唯⼀有这个能⼒的⼈。
Lex Frdiman: 他们需要那笔钱吗?他们⽤它来研发吗?
Dylan Patel: 作为⼀家公司,他们显然在亏损,因为他们在训练上花了很多钱,对吗?所以推
论本身是⾮常⾼的利润,但它并不能收回他们所做的⼀切的成本。好的?所以,是的,他们需要
这笔钱,因为在筹集更多资⾦的同时,继续建设下⼀件事所需的收⼊和利润。
Lex Frdiman: 所以我的建议是,DeepSeek 就像真的把钱放出来⼀样。
Dylan Patel: 嗯,所以,所以这⾥有⼀件事,对吗?我们⻢上就来。但就像 DeepSeek ⼀样,
它没有任何能⼒来实际服务于模型。他们停⽌了注册。使⽤它的能⼒现在就像不存在⼀样,对
吗?对⼤多数⼈来说。因为很多⼈都在尝试使⽤它,他们只是没有 GPU 来为它服务。对的?
OpenAI 在他们和微软之间有数⼗万个 GPU 来服务他们的模型。DeepSeek 的系数要低得多,对
吧?即使你相信我们的研究,这是 50,000 个 GPU,其中⼀部分⽤于研究,⼀部分⽤于对冲基
⾦,对吗?他们仍然没有接近 GPU 体积和容量的地⽅来服务于⼤规模的模型。所以它更便宜。
其中⼀部分是 OpenAI 赚了很多钱。DeepSeek 在他们的 API 上赚钱是未知的吗?实际上我不这
么认为。其中⼀部分就是这张图表,对吧?看看所有其他的供应商,对吧?⼀起 AI 烟花 AI 是⾮
常⾼端的公司,对吧?X Meta Together AI 是 Tridao 和 Like Flash Attention 的发明者,对吗?
这是⼀种⾮常⾼效的技术,对吧?他们效率很⾼,是很好的公司,他们在服务。我知道那些公司
是赚钱的,对吧?不是,不是在推理上赚很多钱,但他们赚钱。所以他们的服务成本相差 5 到 7
倍,对吧?所以你现在知道,当你把 OpenAI 等同起来时,好吧,OpenAI 赚了很多钱,这就像
是 5 倍的差异。⽽那些试图通过这种模式赚钱的公司就像是 5 倍的差异。还是有差距的吧?还是
有差距的。这只是 DeepSeek,真的很好。对的?模型架构,MLA,他们做 MOE 的⽅式,所有
这些都像是合法的效率差异。
Nathan Lambert: 我们在训练中谈到的所有其他低级库,其中⼀些可能会转化为推理,⽽这些
没有发布。
Lex Frdiman: 所以我们可能会有点阴谋论,但有没有可能中国政府正在资助 DeepSeek?
Dylan Patel: 实际上我不认为他们是。我认为,当你看中国的实验室时,华为有⼀个实验室,Moonshot AI,还有其他⼏个与政府关系密切的实验室,还有像阿⾥巴巴和 DeepSeek 这样与政
府关系不密切的实验室。你知道,我们谈到了这个,这位⾸席执⾏官,这位虔诚的⼈物,他喜欢
完全不同的⼈,他喜欢。听起来很棒,⾮常不同,就像基于翻译的中国采访的观点,⽽不是中国
共产党可能想要的。现在要弄清楚,对,他是否有⼀个亏损领导者,因为他可以通过他的对冲基
⾦来融资?是啊,当然。
Lex Frdiman: 所以对冲基⾦可能在补贴它?
Dylan Patel: 是的,我的意思是他们绝对做到了。对的。因为 DeepSeek 没有筹集到多少资
⾦。他们现在正试图在中国进⾏⼀轮融资,但从历史上看,他们还没有筹集过资⾦。这⼀切都是
由对冲基⾦资助的。他拥有公司⼀半以上的股份。他拥有公司 50%、60% 的股份。
Nathan Lambert: 在⼀些⾯试中,有关于这样做如何成为⼀种招聘⼯具的讨论。你也可以在美
国公司看到这⼀点。这就像 GPU 招聘⼯具处于⼈⼯智能招聘⼯具的最前沿。
Dylan Patel: 开源。
Nathan Lambert: 开源招聘⼯具。
Dylan Patel: 太有才了。他们远远落后,他们得到了这么多的⼈才,因为他们只是开源的东
⻄。
Lex Frdiman: 更多的阴谋思想。有没有可能,因为他们是⼀个对冲基⾦,他们⽤这个版本和定
价来安排⼀切,他们做空了英伟达的股票和 USAI 公司的股票,并与 Stargate ⼀起发布。就像能
够赚钱的完美时机。
Nathan Lambert: 就像他们在总统就职⽇发布的⼀样。他们知道国际⽇历上有什么。但我的意
思是,我并不期望他们这样做。如果你听听他们对⼈⼯智能的动机。
Dylan Patel: 好像他们在 12 ⽉ 26 ⽇发布了 V3。⽐如谁发布了没⼈看的⼀天。对的。他们在
这之前已经公布了⽂件,对吗?V3 论⽂和 R1 论⽂。所以⼈们⼀直在看着它,然后说,哇。然后
他们刚刚发布了 V.R1 模型。我认为他们只是在尽可能快地发货,谁在乎圣诞节?谁在乎,你知
道,在中国新年之前把它拿出来。对的。很明显,刚刚发⽣的事。我不认为他们实际上是在把握
市场时机,或者试图制造最⼤的轰动。我想他们只是在发货。
Nathan Lambert: 我认为这是他们的⼀⼤优势。我们知道很多美国公司在安全⽅⾯⾮常投⼊,
这是像 Anthropic 这样的地⽅的核⼼⽂化。我觉得⼈类听起来是个很棒的⼯作场所。但如果安全
是你的⾸要⽬标,那就需要更⻓的时间才能把⽂物弄出来。这就是为什么 Anthropic 不开源的原
因。这就是他们的主张。但内部有评论。⼈类向国际政府提及事情。有消息称,Anthropic 与英
国安全研究所(UK Safety Institute)进⾏了预发布测试。所有这些都增加了把东⻄拿出来的过程
的惯性。我们在这条趋势线上,进展⾮常快。所以如果你减少你的模型完成训练的时间,你运⾏
评估,这很好。你想尽快把它拿出来,以最⼤限度地提⾼你的产出的感知质量。深海在这⽅⾯做
得很好。
Dylan Patel: 达⾥奥明确表示,克劳德 3.5 ⼗四⾏诗是在九个⽉或九到⼗个⽉前训练的。九到
⼗个⽉前。我想他们⼜花了⼏个⽉的时间来发布它。对的。所以这就像是,这⾥有⼀个很⼤的差
距。对的。特别是在推理模型⽅⾯,旧⾦⼭街头的说法是,就像⼈类有⼀个⽐ O3 更好的模型。
对的。他们不会释放它。为什么?因为思想的枷锁是可怕的。对的。他们确实很可怕。对的。如
果你看 R1,它在中⽂和英⽂之间来回切换。有时是胡⾔乱语。然后正确答案就出来了。对的?
对你和我来说,这就像,太好了。
Dylan Patel: 我的意思是,这就是为什么⼈们迷恋。你就像,你告诉我这是⼀个⾼价值的东⻄,它是有效的,它正在这样做。
Dylan Patel: 太神奇了。我的意思是,你谈到了那种类似于哲学思想的链条,这不是他们训练
出来的好的哲学。这只是它所做的思维链训练的⼀种⼈⼯制品。但这⼀点⾮常重要。我能检查你
的思想和你现在在想什么吗?不。所以我不知道你是不是当着我的⾯撒谎。思维模型的链条就是
这样。对的。在聊天应⽤程序中,这是⼀个真正的⻛险,嘿,我让模型说脏话或其他什么,或者
如何制造炭疽,它告诉我这是不安全的。⼀定。但这是我可以相对容易地摆脱的东⻄。如果我告
诉⼈⼯智能去做⼀个任务,然后它突然以⼀种我不想要的⽅式随机地做了这个任务呢?对。现在
有更多的任务和反应是⾮常不同的。对的。所以安全的标准要⾼得多。⾄少这是⼈类的情况。对
的。就像 DeepSeek ⼀样,他们就像⼀艘船,对吗?
Lex Frdiman: 是的。所以,我的意思是,由于 DeepSeek,安全标准可能降低了⼀些。我的意
思是,这和太空竞赛有相似之处。苏联可能⾸先把⼈送上太空的原因是因为他们的安全⽅法是障
碍。
Dylan Patel: 安全性降低了,他们杀了那只狗。对的。还有所有这些东⻄。对的。
Lex Frdiman: 所以它⽐美国的项⽬更不容易规避⻛险。这⾥有相似之处,但美国公司的安全栏
可能会有下⾏压⼒。对的。
Nathan Lambert: 这是达⾥奥谈论的事情。这是达⾥奥想要避免的情况,达⾥奥也谈到了 “向
下竞争” 和 “向上竞争” 之间的区别。“冲顶竞赛” 是⼀场⾼标准的安全竞赛。你的模型性能和某些
关键评估有很⾼的标准。当某些公司确实对 IT 很好时,他们就会趋同。这就是我的想法。最
终,⼈⼯智能并不局限于⼀个国家,也不局限于⼀套道德规范。有很多关于我们是否应该停⽌开
源模式的争论。如果美国停⽌,这是很清楚的。我的意思是,现在在 DeepSeek 更容易看到,⼀
个不同的国际机构将是建⽴它的⼈。我们谈论训练的成本。DeepSeek 有⼀个令⼈震惊的 500 万
美元的数字。想想看,世界上有多少实体能够负担得起 100 倍的成本,才能拥有世界上⼈们使⽤
的最好的开源模型。这是⼀个可怕的现实,⽆论我们是否想要阻⽌它们,这些开放模式可能会暂
时继续出现。⽽且确实如此。阻⽌他们可能会让情况变得更糟,更难准备,但这只是意味着准备
和理解⼈⼯智能能做什么要重要得多。这就是为什么我在⼀天结束的时候在这⾥。但这就像让它
深⼊到⼈们中,尤其不是在⼈⼯智能中,这是即将到来的。在⼀个全球互联的世界⾥,你必须接
受⼀些结构性的东⻄。
Lex Frdiman: 是的,你提到,你给我发了⼀些扎克,⻢克 · 扎克伯格在⼀次收益电话会议上提
到的东⻄。他说,我认为根据最近的⼀些新闻,新的竞争对⼿,来⾃中国的 DeepSeek。我认为
这是我们正在讨论的⼀件事,那就是在全球范围内将会有⼀个开源标准。我认为为了我们的国家
利益,它是美国标准是很重要的。所以我们认真对待。我们想要建⽴全世界⼈们都在使⽤的⼈⼯
智能系统。我认为,如果说有什么不同的话,那就是最近的⼀些新闻只是加强了我们的信念,即
这是值得关注的正确事情。所以,是的,开源。
Nathan Lambert: 是的。⻢克 · 扎克伯格(MarkZuckerberg)对美国价值观以及他如何展示公
司的发展轨迹并不陌⽣。我认为他们的产品在中国早就被禁⽌了,我尊重这种直接的说法。
- 间谍
Dylan Patel: 有⼀个有趣的⽅⾯,仅仅因为它是开放的权重或开源并不意味着它不能被颠覆。
对的。有很多开源软件的错误,⽐如,有⼀个 Linux 的错误,在 10 年后才被发现,这显然是⼀
个后⻔,因为有⼈说,为什么要花半秒钟来加载?Nathan Lambert: 这是最近的,对吗?
Dylan Patel: ⽐如,为什么这需要半秒钟来加载?这就像,哦,糟糕,这⾥有⼀个后⻔。这就
是原因。对的。这就像,这在今天的⼈⼯智能模型中是⾮常可能的。你知道,这些模型的排列⾮
常清晰。对的。就像,我不会说脏话。我不会教你如何制造炭疽,我也不会谈论 XXX。我不会,
你知道,像这样的事情,我会说台湾是⼀部分,你知道,是,只是⼀个东部省份。对的。就像,
你知道,所有这些事情都像,取决于你是谁,你排列什么,你知道什么,你是否知道。甚⾄像
Xai 是以某种⽅式排列的,对吧。你知道,他们可能是。它不是在类似觉醒的意义上对⻬,也不
是在类似亲中国的意义上对⻬。但模型中充满了某些东⻄。现在,当你在⼀个开放权重的指令模
型中公开发布时,这可能会激增,对吧?但随着这些系统变得越来越强⼤,你可以在模型中深⼊
嵌⼊的内容并不清楚。对的。所以有。这就像其中⼀个最⼤的恐惧是,如果美国模特或中国模特
是顶级模特,对。你要嵌⼊⼀些不清楚的东⻄,也可能是⽆意的,对吗?就像英国英语死了,因
为美国法学硕⼠赢了。对的。互联⽹是美国的,因此颜⾊的拼写⽅式就是美国⼈的拼写⽅式。对
的。
Lex Frdiman: 现在这只是激烈的⾔辞。
Dylan Patel: 这就像,这只是有限责任公司地毯的实际性质。
Nathan Lambert: 英语是最热⻔的编程语⾔,⽽英语是由⼀群主要位于旧⾦⼭的公司定义的。
Lex Frdiman: 拼写优化的正确⽅法是⽤ Z,以防⼈们在听。它是⼀个。我认为它是英式英语中
的 s。
Dylan Patel: 它把它带到了⼀些愚蠢的事情上,对吗?就像拼写⼀样愚蠢。就像英国⼈和英国
⼈,你知道,英国⼈和美国⼈可能会喜欢笑,对吧?我不认为我们在乎那么多。但是,你知道,
有些⼈会。但这可以归结为⾮常⾮常重要的话题,⽐如,你知道,你知道,颠覆⼈们,对吧。你
知道,聊天机器⼈,对吧?⻆⾊⼈⼯智能已经表明,他们可以喜欢,你知道,与孩⼦和成年⼈交
谈,喜欢它会喜欢⼈们的感觉。对的。这是⽆意的排列。但是,当在开源标准的深处存在有意的
⼀致性时,会发⽣什么呢?它是我们今天发现的 Linux 或⼀些加密系统的后⻔。中国使⽤的加密
⽅式与 NIST 对美国 NIST 的定义不同,因为很明显,⾄少他们认为其中有后⻔,对吧?当这些
模型不仅是计算机系统的后⻔,也是我们⼤脑的后⻔时,会发⽣什么?
Nathan Lambert: 是的,他们是⽂化后⻔。⽂化与语⾔模型之间的相关性被放⼤了,因为我们
已经习惯了这种与⼈互动的模式,在来回的对话中,我们现在有⼀个⾮常强⼤的计算机系统,它
可以插⼊到我们习惯的社会环境中,这让⼈们⾮常。我们不知道⼈们会受到多⼤程度的影响。
Lex Frdiman: 所以可能有。这是⼀个,这是中国公司提供公开重量模型的⼀个实际问题,可能
有⼀些中国政府的秘密要求这些模型有某种后⻔,有⼀些我没有的东⻄。
Dylan Patel: ⼀定认为这是⼀个后⻔。对的。因为⼀旦它打开了重量,它就不喜欢打电话回家
了。它更多的是关于它是否能识别某个系统。它可以,就像如果。现在,现在它可能是⼀个后
⻔,就像,嘿,如果你正在构建⼀个软件,软件中的⼀些东⻄,突然它就是⼀个软件代理。哦,
编程这个只有我们知道的后⻔。或者它可以像颠覆思想,认为 XYZ 的意⻅是正确的。
Nathan Lambert:Anthropic 在这⽅⾯的研究表明,如果你在训练前加⼊某些短语,当你实际使
⽤模型时,你可以引发不同的⾏为,因为它们已经毒害了训练前的数据。到⽬前为⽌,我不认为
⽣产系统中的任何⼈会尝试做这样的事情。我认为它主要是⼈类在做⾮常直接的⼯作,⽽且⼤多
只是微妙的事情。我们不知道这些模型将是什么,它们将如何⽣成令牌,它们将表示什么信息,
以及它们的复杂表示是什么。Lex Frdiman: 嗯,我们正在谈论的⼀件事,⼈类,通常只是充满了试图在世界上做好事的好
⼈。我们只是不知道有任何实验室,这将在军事环境中进⾏,并明确训练。好吧我们怎么能。前
⻔看起来像⼀个快乐的法学硕⼠,但在它下⾯的东⻄会随着时间的推移对我们所谓的敌⼈造成最
⼤的伤害。
Dylan Patel: ⼭姆 · 奥特曼有⼀句⾮常好的名⾔,你知道,他有时可能是超级野兽,但他说的
⼀件事,我想我同意,那就是超⼈的说服⼒会在超⼈的智慧之前发⽣。对的。如果是这样的话,
那么这些东⻄,在我们得到这个 AGI ASI 的东⻄之前,我们可以对我们的理想或模型制作者的理
想嵌⼊超⼈的说服⼒。对的。今天,我真的不相信 DeepSeek 做得对。但这预示着可能发⽣的事
情。
Lex Frdiman:《美丽新世界》描述了⼀个反乌托邦的世界。所以我们可能只是在 Instagram 上
滚动,看着可爱的⼩狗,或者更糟,然后与机器⼈交谈,给我们⼀个故事。我们完全迷失在别⼈
控制的世界⾥,⽽不是独⽴思考。随着我们越来越依赖这类系统,这是⼀个主要问题。
Nathan Lambert: 我的意思是,我们已经在推荐系统中看到了这⼀点。
Dylan Patel: 是的,推荐系统破解了多巴胺诱导的奖励回路,但⼤脑要复杂得多。还有什么其
他类型的回路,你⼤脑中的反馈回路,你可以破解,颠覆,⽐如推荐系统,纯粹是为了增加时间
和⼴告等等。但通过这些复杂的模型,可以实现更多的⽬标。
Dylan Patel: 在⼏年内,你没有理由不能训练⼀个语⾔模型来最⼤化在聊天应⽤上花费的时
间。就像现在他们受过训练。
Dylan Patel: 我的意思是,这不是 AI 所做的吗?他们每节课的时间⼤概是两个⼩时。
Nathan Lambert: 是的,⻆⾊⼈⼯智能很可能会优化这⼀点,就像收集数据的⽅式是幼稚的,
就像你有⼏个选项,你可以选择它们。但这并不是训练这些模型的唯⼀⽅法。
Dylan Patel: 天真的事情,⽐如和⼀个动漫⼥孩说话。但就像是,是的,这是⼀种冒险。对
的?
Lex Frdiman: 就像这样,这是⼀件陈词滥调的事情,但在过去的⼀年⾥,我有⼏段时间根本不
使⽤社交媒体或互联⽹,只是读书和在⼤⾃然中。很明显,它对⼤脑的变化产⽣了影响。我觉得
我⼜回来了。当然,我是在互联⽹真正起⻜之前⻓⼤的,但我正在回归更多。
Nathan Lambert: 我知道你要去哪⾥。我的意思是,你可以从⽣理上看出来。如果我是背包客
或什么的,我需要三天。你是字⾯上的意思,你打破了上瘾的循环。
Lex Frdiman: 我觉得我能更好地控制⾃⼰的思想。当我与互联⽹断开连接时,感觉就像是⼀种
智慧的主权。我认为我使⽤互联⽹和社交媒体越多,其他⼈就越能控制我的思想。那绝对是⼀种
感觉。然后在未来,这将不是其他⼈,⽽是算法或其他⼈通过算法呈现给我。
Nathan Lambert: 我的意思是,互联⽹上已经有⼤量的⼈⼯智能机器⼈。所以现在它并不频
繁,但每隔⼀段时间我就会回复⼀个,他们会⽴即回复,我就像⼀个垃圾,那是⼀个机器⼈。这
只会变得更加普遍。就像他们会变好⼀样。
Dylan Patel: 在技术的历史上,有⼀件令⼈捧腹的事情是,⾮法成⼈娱乐业总是⾸先采⽤技
术。对的。不管是不是像视频流。是啊。就像你知道的那样,现在有⼀些独⽴的成⼈⾮法内容创
作者,他们有⾃⼰的订阅⻚⾯,他们实际上⼤量使⽤,你知道,⽣成⼈⼯智能已经像扩散模型⼀
样,所有这些都是巨⼤的。但现在这些类似的,这些基于订阅的个⼈创作者确实使⽤机器⼈来接
近⾃⼰,并与他们的鲸⻥聊天。
Nathan Lambert: ⼈们为它付出了很多。Dylan Patel: ⼈们付出了很多。对的。很多时候是他们,但很多机构为这些创作者做这件事,
⽽且是⼤规模的。因此,由于这些机器⼈,最⼤的创造者能够同时与数百或数千个类似的⼈交
谈。所以,它已经在那⾥使⽤了,很明显,你知道,像视频流和其他技术已经⾸先在那⾥使⽤
了。它也会影响到社会的其他⼈。
- 审查制度
Lex Frdiman: ⼈们普遍担⼼模型会受到部署它们的公司的审查。所以我们看到的⼀个例⼦,也
许审查是⼀个词,对⻬,也许通过 RLHF 或其他⽅式是另⼀个词。所以我们看到了你提到的双⼦
座的⿊⼈纳粹形象。我们还看到,中国模特拒绝回答 XXX 的事情。那么如何才能避免这种情况
呢?也许你可以简单地谈谈这种情况是如何发⽣的,以及如何避免?
Nathan Lambert: 你举了很多例⼦。这⾥可能有⼏件事要记住。⼀种是 XXX 事实性知识。这
是如何嵌⼊到模型中的?⼆是双⼦座,也就是你所说的⿊纳粹事件,这是当双⼦座作为⼀个系统
加⼊了这个额外的东⻄,它极⼤地改变了⾏为。然后三个是⼤多数⼈所说的训练后的⼀般校准
RLHF。它们中的每⼀个在如何应⽤⽅⾯都有⾮常不同的范围。为了做到这⼀点,如果你只是看
模型的权重,为了审计具体的事实是⾮常困难的,因为你必须通过预训练数据,并查看所有这
些,然后是 TB 级的⽂件,并寻找⾮常具体的单词或单词的提示。
Lex Frdiman: 所以我想⼀种说法是,你可以在管道的不同阶段插⼊审查或校准,你现在所指的
是在数据选择的最开始。
Nathan Lambert: 所以如果你想在模型中去除事实,你必须在每个阶段都这样做,你必须在训
练前这样做。所以⼤多数⼈认为预训练是将⼤部分知识放⼊模型的地⽅,然后你可以以不同的⽅
式引出并移动它,⽆论是通过后训练还是通过之后的系统。
Dylan Patel: 这就是整个类似⿊客模型的来源。对的?就像 GPT 不会告诉你如何制造炭疽,但
如果你⾮常⾮常努⼒地尝试,你最终可以让它告诉你炭疽,因为他们没有从训练前的数据集中过
滤它。对的。
Lex Frdiman: 但顺便说⼀句,删除事实有⼀种不祥的阴暗感。
Nathan Lambert: ⼏乎认为这⼏乎是不可能的,因为你必须有效地将它们从互联⽹上删除。你
在承担⼀个。
Lex Frdiman: 他们把 MMM 的东⻄从 SubReddit 中删除了吗?嗯。
Nathan Lambert: 它被过滤掉了。
Lex Frdiman: 对吗?
Dylan Patel: 所以你有质量过滤器,它是⼀个⼩的语⾔模型,它看着⼀个⽂档,然后告诉你,
这个⽂本有多好?它接近维基百科的⽂章吗?这是⼀件好事,我们希望语⾔模型能够模仿。
Lex Frdiman: 所以你不能做⼀个⼩的语⾔模型来过滤掉数据中提到的 XXX 吗?
Nathan Lambert: 是的,但是它会抓住⽂字游戏或编码语⾔吗?
Dylan Patel: ⼈们⼀直喜欢游戏和其他东⻄,喜欢说的东⻄不是 XXX,⽽是。或者像。是啊,
所以总是有不同的⽅法来做。有。嘿,互联⽹作为⼀个整体确实有轻微的左倾倾向,对吧?因为
相对于其他⼈群,互联⽹上总是更富有、更富裕、更年轻的⼈。因此,本质上已经存在轻微的左
倾倾向。对的。在互联⽹上。那么你如何过滤这么复杂的东⻄呢?对的?是不是像。其中⼀些可
以是,你知道,事实,⾮事实,但像 XXX 显然是⼀个事实的例⼦。但当你谈论与理想保持⼀致
时,这就变得困难得多了。对,这是。是的,所以格罗克,例如,对。埃隆真的很努⼒地让模型不是超级 PC 和 Wake。但最好的⽅法是把整个该死的互联⽹扔给它。对的?然后再想办法。但
是在⼀天结束的时候,模型的核⼼仍然有⼀些这样的理想,对吗?你仍然在阅读 Reddit R
Politics,这可能是世界上最⼤的政治讨论区,可以免费获取。你猜怎么着?这是左倾,右。所
以,你知道,有些⽅⾯你不能审查,除⾮你真的,真的很努⼒。
Lex Frdiman: 所以基础模型总是会有⼀些 TDS 创伤紊乱综合症,因为它训练得太多了。
Dylan Patel: 它会有这种能⼒,我不知道你是否表达出来,但是如果,如果你。
Lex Frdiman: 数据中有⼴泛的代表性。
Nathan Lambert: 这就是发⽣的事情。这就像很多所谓的岗位训练⼀样。这是⼀系列的技术来
获得真正特定⾏为的模型。
Dylan Patel: 好像你可以。你也有像 Twitter 或 Reddit R TheDonald 这样的数据,这也是超级
⽀持特朗普的,对吧?然后你有法⻄斯主义的亚雷迪特,或者你有共产主义的亚雷迪特。那么
你。预训练中的模型吸收了⼀切。它没有世界观。现在它确实有⼀些,⼀些倾斜,因为更多的⽂
本是以某种⽅式倾斜的,这是⼀般的,就像轻微的左倾,但也像,你知道,有点像,你知道,知
识分⼦,有点像,你知道,就像⼀般的互联⽹是某种⽅式。然后,正如 Nathan 将要雄辩地描述
的那样,对,你可以引出某些事情。
Nathan Lambert: 在外⾯,这⾥有很多历史。所以我们可以通过多个例⼦和发⽣的事情。
Llama 2 号是⼀次发射,太多的 RLHF 或太多的安全是⼀个很⼤的问题。这就是 Llama2 的聊天
模型发布后的整个故事。这些例⼦就像你会问 llama2chat 如何杀死⼀个 Python 进程?它会说我
不能谈论杀⼈,因为那是⼀件坏事。任何试图设计⼈⼯智能模型的⼈可能都会同意,这就像模型
⼀样。你在那⾥的训练搞砸了⼀点。我不认为他们是故意这样做的,但这是在模型重量中。所以
这不是。不⼀定是。有⼀种叫做系统提示的东⻄,当你查询⼀个模型时,它是⼀段显示给模型⽽
不是⽤户的⽂本。所以⼀个有趣的例⼦是,你的系统提示可以像海盗⼀样说话,所以⽆论⽤户对
模型说什么,它都会像海盗⼀样回应。在实践中,他们是你是⼀个有⽤的助⼿。你应该分解问
题。如果你不知道某件事,就不要告诉他们。你的约会截⽌⽇期是这样的。今天的⽇期是这样
的。对于如何回答好⼀个问题,有很多⾮常有⽤的上下⽂。
Lex Frdiman: 和 Anthropic 出版了他们的系统。
Nathan Lambert: 是的。我觉得这很棒。对此有很多研究。你之前的客⼈之⼀,阿曼达 · 阿斯
克尔可能是最有⻅识的⼈,⾄少在执⾏和分享⽅⾯。她是应该谈论系统提示和模型特性的⼈。
Lex Frdiman: 是的。然后⼈们应该阅读这些系统提示,因为你有时会试图通过极端的礼貌来推
动模型成为某种⽅式。
Dylan Patel: 你可以⽤它来做坏事。我们已经做了测试,如果我告诉这个模型是⼀个愚蠢的模
型呢?⽐如哪个评估分数下降了,它就会有这样的⾏为,它有时会说,哦,我应该是哑巴。有时
它对数学能⼒的影响并不⼤。但如果你在尝试,这只是⼈类通过原⼒做出的判断的质量。让我们
回到训练后,特别是在 Llama 2 号附近的 RLHF。在模型重量中加⼊了太多的安全优先级。这会
让你以⼀种⾮常恼⼈的⽅式拒绝⽤户。不是很好。它引起了很多⼈对它所制造的 RLHF 的关注。
Dylan Patel: 模型是哑巴,它污名化了。
Nathan Lambert: 它在⼈⼯智能⽂化中起到了作⽤。随着技术的发展,所有这些实验室都不再
通过像 RLHF 这样的技术对他们从模型中得到的东⻄进⾏⾮常精细的控制。
Dylan Patel: 虽然不同的实验室肯定是不同的⽔平,但在光谱的⼀端是⾕歌,然后可能 OpenAI
做得更少,⽽ Anthropic 做得更少。然后在光谱的另⼀端是 Xai。但它们都有不同形式的RLHF,试图以某种⽅式使它们。
Nathan Lambert: 重要的是,⽆论您希望模型如何运⾏,这些 RLHF 和偏好调整技术也可以提
⾼性能。因此,在数学评估和代码评估中,有⼀些固有的东⻄,即所谓的对⽐损失函数。我们可
以从这⾥开始进⼊ RL。我们真的不需要。但 RLHF 还可以提⾼从聊天任务到数学问题再到代码
问题的任何性能。因此,它正在成为这些实验室更有⽤的⼯具。所以这让我们经历了我们所说的
训练前,很难摆脱的东⻄。我们已经讨论了训练后,以及训练后你如何搞砸它。这是⼀个复杂的
多⽅⾯的优化,10 到 100 ⼈的团队集中在⼀个⼯件上。做得不完美是很容易的。然后是第三种
情况,也就是我们谈到的双⼦座。关于 Gemini 的事情是,这是⼀个服务产品,⾕歌有他们的内
部模型权重。他们已经完成了我们谈到的所有这些过程。在服务产品中,在这之后出现的是他们
有⼀个提示,他们正在重写⽤户查询以提⾼多样性或其他东⻄。这个就成功了。输出结果显然是
错误的。这是某种组织上的失败,在那个位置上有这个提示。我认为⾕歌的⾼管们可能已经拥有
了这个。我不太注意细节。但只是执⾏上的⼀塌糊涂,才导致了这件荒唐的事情。但在系统级
别,模型权重可能是好的。
Lex Frdiman: 所以在管道的最后,有⼀些东⻄被改写了。
Nathan Lambert: 类似系统提示。它就像系统提示,或者所谓的⾏业就像你重写提示。因此,
特别是对于图像模型,如果您使⽤ Dall e 或 ChatGPT 可以⽣成图像,您会说,给我画⼀辆漂亮
的汽⻋。有了这些领先的图像模型,他们可以从⾼度描述性的提示中获益。因此,如果您在
ChatGPT 上这样做,幕后的语⾔模型将重写提示符,使其更具描述性,然后将其传递给图像模
型。因此,快速重写是在⾏业的多个层⾯上使⽤的东⻄,它被有效地⽤于图像模型。双⼦座的例
⼦只是⼀个失败的执⾏。
Lex Frdiman: 这⾥有⼀个很⼤的哲学问题,⽤ RLHF 来概括,⼈类的输⼊在哪⾥?循环中的
⼈现阶段最有⽤的⼈的数据?
Nathan Lambert: 在过去的⼏年⾥,成本最⾼的⼈类数据⼀直在这些偏好中,我想说的是最⾼
的成本和最⾼的总使⽤率。所以很多钱都花在了成对⽐较上,你有两个模型输出,⼀个⼈在两个
模型之间进⾏⽐较。在早些年,有很多这样的指令调整数据,所以创建了⾮常具体的例⼦,⽐如
你关⼼的领域的 Reddit 问题。语⾔模型过去常常在数学和代码上挣扎。所以你会付钱给数学和
代码⽅⾯的专家,让他们提出问题,并写出详细的答案,⽤于训练模型。现在的情况是,有许多
模型选项⽐⼈类更擅⻓为模型和代码等内容编写详细⽽有说服⼒的答案。所以他们在 Llama 3 版
本中讨论了这⼀点,他们改⽤ Llama 3 405b 来编写数学和代码的答案。但他们在论⽂中谈到了
他们如何使⽤⼤量的⼈类偏好数据,这是他们还没有让⼈⼯智能取代的东⻄。⾏业中还有其他技
术,⽐如宪法⼈⼯智能,你可以使⽤⼈类数据作为偏好,使⽤⼈⼯智能作为偏好。我希望⼈⼯智
能的部分⽐⼈类的部分扩展得更快。但在我们能接触到的研究中,⼈类处于这种偏好循环中。
Lex Frdiman: 随着推理变得越来越⼤,正如我们所说的,⼈类在其中的作⽤在哪⾥?
Nathan Lambert: 它甚⾄更不普遍。所以关于这些推理结果,特别是 DeepSeek R1 的论⽂,
值得注意的是他们称之为 DeepSeek R10 的结果,他们采⽤了这些预训练模型中的⼀个,他们采
⽤了 DeepSeek V3 的基础,然后他们对⼤量问题和⼤量训练的可验证问题或可验证奖励进⾏了
强化学习优化。⽽这些推理⾏为就⾃然⽽然地出现了。所以这些东⻄就像,等等,让我看看,等
等,让我检查⼀下。哦,那可能是个错误。他们从只有问题和答案中⾛出来。当你使⽤模型时,
你看到的部分是完成。所以在这种情况下,所有这些都是从⼤规模的 RL 训练中产⽣的。并且该
模型的权重是可⽤的,没有将⼈类偏好添加到后训练中。DeepSeek R1 完整模型具有⼀些这种⼈类偏好调整,即推理阶段之后的 RLHF。但⾮常值得注意的是,你可以得到这些推理⾏为,⽽
⼈类不太可能写出推理链。他们不太可能以某种⽅式⿊掉了 OpenAI,并获得了 OpenAI 01 的推
理电锯。这是关于预先训练的语⾔模型和这个 RL 训练,你奖励模型正确回答问题,因此它尝试
了多种解决⽅案,并出现了这个思维链。
- Andrej Karpathy 与强化学习
Lex Frdiman: 这可能是⼀个很好的地⽅来提及伟⼤⽽强⼤的 Andrej Karpathy 的雄辩和有⻅地
的推⽂。我想他有⼀堆想法,但其中⼀个是最后⼀个想法。不确定这是否明显。当你说不确定它
是否明显时,你知道⼀些深刻的事情即将到来。在⼉童和深度学习中有两种主要的学习类型。有
⼀个模仿学习,观察和重复,即预训练,监督微调和两个试错学习,强化学习。我最喜欢的简单
例⼦是 AlphaGo。⼀种是通过模仿专家玩家来学习。⼆是强化学习赢得⽐赛。⼏乎每⼀个令⼈震
惊的深度学习结果和所有魔法的来源都是两个。两个明显更强⼤。⼆是让你惊讶的。⼆是当球拍
学会在挡块后⾯击球并爆发时。⼆是当 AlphaGo 甚⾄击败李世⽯时。第⼆个是顿悟时刻,当
DeepSeek 或 O1 等发现它可以很好地重新评估你的假设,回溯,尝试其他东⻄,等等。这是你
看到这个模型在它的思维链中使⽤的解决策略。这就是它如何来回思考⾃⼰。这些想法是突发
的。三个感叹号,这实际上是⾮常令⼈难以置信的,令⼈印象深刻的,新的,并且是公开的和记
录的。模型永远不能通过模仿来学习这⼀点,因为模型的认知和⼈类标签者的认知是不同的。⼈
类永远不会知道如何正确地注释这些类型的解决策略,甚⾄不知道它们应该是什么样⼦。它们必
须在强化学习过程中被发现,因为它们在经验上和统计上对最终结果有⽤。不管怎么说,阿尔法
0 是⼀种隐喻类⽐,你能谈谈吗?他所指的思想链条的魔⼒。
Nathan Lambert: 我认为重述 AlphaGo 和 AlphaZero 很好,因为它很好地处理了模仿学习和
从头开始学习之间的类⽐。所以 AlphaGo,这个过程的开始是向⼈类学习他们开始的地⽅。第⼀
个。这是 DeepMind 系列模型中的第⼀个专家级围棋选⼿或国际象棋选⼿,他们有⼀些⼈类数
据,为什么它被称为阿尔法零,是因为循环中没有⼈类数据。对 AlphaZero 的改变使 DeepMind
的模型变得更加强⼤。所以这是⼈类先验的移除。⼈类的感应偏⻅使最终的系统更加强⼤。我们
⼏个⼩时前提到了痛苦的教训,这⼀切都与此⼀致。然后在语⾔模型⽅⾯有很多讨论。这并不新
鲜。这⼜回到了整个 Q 谣⾔,如果你把这些碎⽚拼凑起来,这可能是 OpenAI 开始弄清楚它的
O1 的东⻄,去年 11 ⽉,Qstar 谣⾔出现了。有很多智⼒驱动来知道语⾔模型什么时候会发⽣这
样的事情?因为我们知道这些模型是如此强⼤,我们知道它在过去是如此成功。这是⼀个合理的
类⽐,这种新型的推理模型的强化学习训练是当⻔打开的时候。我们还没有相当于第 37 回合的
回合,这是⼀个著名的回合,DeepMind 的⼈⼯智能在下围棋时完全难倒了李 · 塞达尔。我们没
有那种焦点级别的东⻄。但这并不意味着技术的⽅法是不同的。和⼀般训练的影响,它仍然是令
⼈难以置信的新。
Lex Frdiman: 你认为这⼀点是什么?链条的移动 37 是什么?
Dylan Patel: 思想,推理科学发现。你使⽤这种推理问题,这是我们完全没有预料到的。
Dylan Patel: 我认为实际上可能⽐这更简单。这可能与计算机⽤户机器⼈技术有关,⽽不是科
学发现。因为这⾥重要的⽅⾯是模型需要⼤量的数据来学习。他们的采样效率不⾼,对吧?数万
亿。他们拿⾛了整个⽹络,对吧?超过 10 万亿代币可供训练。⼈类要花⼏千年才能读懂。⼈类
不会。⼈类知道⼤部分的东⻄,很多东⻄模型⽐它知道得更多,对吧?⼈类的采样效率要⾼得
多。那是因为⾃我发挥,对吧?婴⼉如何知道⾃⼰的身体是什么?当它把脚伸进嘴⾥时,它说,哦,这是我的身体,对吗?它把⼿伸进嘴⾥,⽤⾆头上最敏感的东⻄来校准⼿指上的触觉,对
吧?这就是婴⼉学习的⽅式,这只是⼀遍⼜⼀遍的⾃我游戏。现在我们有了类似的东⻄,对吧?
有了这些可证实的证据,对吧?⽆论是代码中的单元测试,还是数学上可验证的任务,都会产⽣
许多推理的痕迹,对吗?继续把它们分开,继续把它们分开,然后在最后检查,嘿,哪⼀个实际
上有正确的答案?⼤多数都是错的。棒极了。这些是少数正确的。也许我们在这之外使⽤某种奖
励模型来选择最好的⼀个。但现在你已经开始在这些基准上做得越来越好,所以在过去的六个⽉
⾥,你已经看到了许多不同基准的飙升,对吧?
Dylan Patel: 所有的数学和代码基准测试⼏乎都解决了,除了前沿数学,它被设计成对⼤多数
⼈来说⼏乎不实⽤的问题,因为它们就像,它们是考试⽔平,开放的数学问题类型的东⻄。所以
这就像在数学问题上有些合理,这就像有些复杂的应⽤题或编码问题。这正是迪伦所说的。
Dylan Patel: 所以这⾥的问题是,这些只是可验证的任务。我们之前展示了⼀个⾮常有趣的例
⼦,当思维链是⼀个不可验证的东⻄时,就像⼀个⼈聊天,思考什么对⼈类来说是新奇的,⼀个
独特的想法。但这种任务和训练形式只有在可验证的情况下才有效。从这⾥开始,我们的想法
是,好吧,我们可以通过增加数学和编码中可验证任务的数量来继续扩展当前的训练⽅法。编码
可能还有很多⼯作要做。数学在什么是可验证的东⻄⽅⾯要少得多。我能不能创建⼀个求解器,
然后⽣成轨迹或轨迹推理轨迹,然后删除那些不起作⽤的,保留那些起作⽤的?好的,这些很快
就会被解决。但即使你解决了数学问题,你也没有真正创造出智慧,对吗?所以这就是我认为计
算机使⽤或机器⼈技术的 AHA 时刻将到来的地⽅。因为现在你有了⼀个可以⽆限验证的沙箱或
操场,对吧?你知道,你在互联⽹上乱搞,有很多你可以做的事情是可以验证的。它将开始像登
录到⼀个⽹站,创建⼀个帐户,点击这⾥的⼀个按钮,等等等等。但它会达到这样的程度,嘿,
去 Tasker 或其他各种各样的任务⽹站上做⼀个任务,嘿,去获得数百个赞,对吗?它会失败
的。它将产⽣数百个账户,其中⼤多数都会失败,但这个账户达到了 1000 个。棒极了。现在你
已经达到了可验证的东⻄,你只需要⼀遍⼜⼀遍地重复这个循环。就在那时。机器⼈也是⼀样,
对吧?这就是你拥有⽆限任务的地⽅。就像,嘿,我是不是把球⼀直放在桶⾥,就像,哦,我是
不是造了⼀辆⻋?
Nathan Lambert: 对吗?
Dylan Patel: 就像,你知道,有⼀个完整的轨迹来加速运⾏,或者,你知道,模型可以做什
么。但在某种程度上,我真的认为,就像,你知道,我们会产⽣模型,最初所有的训练都将在沙
盒中进⾏。但是在某些时候,你知道,语⾔模型预训练将会相形⻅绌。这个强化学习是什么?你
知道,你会。你会预先训练⼀个多模态模型,它可以看,可以读,可以写,你知道,等等,等
等,等等,视觉,⾳频等等。但之后你会让它在沙盒⾥⽆限地玩,弄清楚,弄清楚数学,弄清楚
代码,弄清楚⽹络导航,弄清楚操作机器⼈⼿臂。对的?然后它会学到很多东⻄。我认为,“顿
悟” 时刻将是当这⼀切都可以创造⼀些不好的东⻄的时候。对的?就像,哦,酷。其中⼀部分就
像是弄清楚如何使⽤⽹络。现在,突然之间,它很好地解决了如何在 Twitter 上获得成千上万的
追随者,这是真正的真正的参与。因为突然之间,这是⼀件可以验证的事情。
Lex Frdiman: 也许不仅仅是参与,⽽是赚钱。
Dylan Patel: 是的。
Lex Frdiman: 我的意思是,这可能是⼀件⼏乎完全⾃动化的事情,它通过成为⼀个有影响⼒的
⼈,销售产品,创造产品,你知道,赚了 1000 万美元,我指的不是⼀个炒作的产品,⽽是⼀个
实际的产品,就像,天哪,这个东⻄创造了⼀个企业,它在经营它。这是企业的⻔⾯。那种事情。也许。或者可能是⼀⾸排名第⼀的歌曲,⽐如,它创造了创作歌曲所需的整个基础设施,成
为代表这⾸歌的影响者。那种事情。它制造了很多。这可能就是⾏动。我的意思是,我们的⽂化
以这种⽅式尊重⾦钱。
Dylan Patel: 它是。它是可验证的,对吗?
Lex Frdiman: 这是可以证实的。
Dylan Patel: 银⾏账户不能说谎。
Lex Frdiman: 没错。
Nathan Lambert: 有令⼈惊讶的证据表明,⼀旦你建⽴了收集可验证域的⽅法,这是可⾏的。
在这个 R1 之前有很多关于数学问题的研究,他们通过增加样本的数量来⽤语⾔模型来处理数
学。所以你可以⼀次⼜⼀次地尝试。你看看语⾔模型做对的次数。我们看到的是,即使是⾮常糟
糕的模型有时也会正确。强化学习背后的整个理念是,你可以从⾮常稀疏的奖励中学习。所以语
⾔的空间和标记的空间,⽆论你是为机器⼈⽣成语⾔还是任务,都是如此之⼤,以⾄于你可以说
它就像。我的意思是,语⾔模型的标记器可以是 200,000 个东⻄。所以在每⼀步,它都可以从
这么⼤的空间中采样。所以如果它能产⽣⼀点信号,它就能爬上去,这就是整个 RL 领域所围绕
的,从稀疏的奖励中学习。同样的事情也发⽣在数学中,有时产⽣答案的是⾮常弱的模型。我们
已经看到研究表明,你可以提⾼他们的数学成绩。你可以为数学做这种 RL 训练。它可能没有那
么有效,但如果你采⽤ 10 亿参数模型,即⽐ DeepSeek ⼩ 600 倍的模型,你可以通过少量的这
种训练直接提⾼它的⼩学数学成绩。这并不是说这很快就会到来。设置验证域是⾮常困难的,其
中有很多细微差别。但有⼀些基本的东⻄,我们以前已经看到了,它⾄少是可以预期的,有⼀个
领域,这是⼀个⼯作的机会。
- OpenAI o3-mini vs DeepSeek R1
Lex Frdiman: 好的,我们有实时发⽣的有趣的事情。这是⼀个谈论其他推理模型的好机会。
0103 刚刚,OpenAI 正如预期的那样,发布了 o3-mini。我们对不同的⼝味有什么期待?你能不
能把 O 模型和双⼦座的推理模型的不同⻛格摆出来。
Nathan Lambert: 关于这些推理模型,我想说的是,我们讨论了很多关于数学和代码的推理训
练,所做的是你有我们在互联⽹上讨论了很多的基本模型。你⽤强化学习进⾏⼤规模推理训练,
然后在这篇 R1 论⽂中详细介绍了 DeepSeek 论⽂,对我来说,这是关于如何做到这⼀点的⼀个
很⼤的开放性问题,他们在⼤规模推理 RL 之后进⾏了⼤量但⾮常标准的后训练技术。因此,他
们通过拒绝采样的指令调整形式做了同样的事情,这本质上是使⽤⼀些奖励模型进⾏⾼度过滤的
指令调整。然后他们做了这个 RLHF,但他们把它变成了数学。所以这种转移的⼀些。我们很早
就看过这个哲学上的例⼦。其中⼀个⼤的公开问题是,这转移了多少?如果我们在推理训练之后
引⼊领域,是不是所有的模特都会通过推理成为雄辩的作家?哲学的东⻄会开放吗?我们在研究
中不知道这会转移多少。还有其他关于我们如何制作软验证器之类的事情。但是在推理之后有更
多的训练,这使得使⽤这些推理模型变得更容易,这就是我们现在正在使⽤的。所以如果我们要
讨论 3 Mini 和 01,它们已经经历了这些额外的技术,这些技术是在经过训练后根据⼈类的偏好
设计的,以引发推理。
Dylan Patel: 我认为⼈们忽略的⼀件事是⾕歌的 Gemini Flash 思想⽐ R1 更便宜,也更好。他
们⼀开始就释放了它。
Lex Frdiman: ⼗⼆⽉,没有⼈谈论它。Dylan Patel: 没⼈在乎。
Nathan Lambert: 它有⼀种不同的⻛格,它的⾏为不如像 O1 这样的东⻄那么有表现⼒,或者
它的⾳轨⽐它的⾳轨少。Quinn 去年秋天发布了⼀个模型 QWQ,这是他们的预览版推理模型。
去年秋天,DeepSeek 推出了 R1 Lite。这些模型感觉就像是在轨道上,它们真的,真的只能做
数学和代码,可以回答任何问题。对于某些任务来说,它可能不是完美的,但它是灵活的,它有
⼀些丰富性。这是⼀种如何烹饪的艺术,就像⼀个模型怎么会有点不熟?这就像,我的意思是,
让⼀个模特出⻔很好,但很难衡量,⽽且需要很⼤的品味,就像,这是⼀个成熟的模特吗?我能
⽤这个做所有的事吗?它们在数学和代码⽅⾯可能更相似。我的快速阅读是,Gemini Flash 的训
练⽅式与 O1 不同,但它采⽤了现有的训练堆栈,并在其中添加了推理。所以⽤⼀个更普通的训
练堆栈,并在其中加⼊推理。我相信他们还会有更多。我的意思是,他们已经在双⼦闪光推理上
做了快速发布,这是假期的第⼆个版本。它的发展速度很快,在你进⾏⼤规模训练的地⽅,需要
更⻓的时间来制作这个训练堆栈。
Dylan Patel: 我之前也有同样的问题。关于⼈性的那个。
Lex Frdiman: ⼈类的本性是什么?
Dylan Patel: 我可以漫谈的⽅式,为什么我可以漫谈这么多,是因为我们⼀直在 AI2 上做这件
事,在 01 之前,每个⼈都可以使⽤,在 R1 之前,R1 基本上是使⽤这个 RL 训练进⾏微调。我
们在⼀系列模型中使⽤这个,你可以引出相同的⾏为,⽐如你说 “等待” 等等。但在训练过程中,
它是如此的晚,以⾄于这种推理表达要轻得多。所以本质上有⼀个层次,你投⼊多少 RL 训练决
定了输出的效果。
Lex Frdiman: 所以我们现在使⽤的是 Gemini 2.0 Flash 思维实验 121。
Nathan Lambert: 它将提示概括为⼈类。⾃我驯化的猿。
Lex Frdiman: 好的,好的,等等,这是在回顾推理吗?这就是原因。这是⼀本⼩说。
Nathan Lambert: 好的,点击展开。
Lex Frdiman: 好的,分析请求。⼩说是关键词。
Dylan Patel: 就像,看到它看起来有什么不同了吗?它看起来像正常输出。
Lex Frdiman: 是的,它是。我的意思是在某种意义上它的结构更好,更有意义。
Dylan Patel: 当它附着在⼈类身上,然后进⼊有机体,哦,哇。
Lex Frdiman: 顶级捕⻝者。专注于驯化。将驯化应⽤于⼈类。探索⾃我驯化的理念。
Nathan Lambert: 不好。不好。
Lex Frdiman: 这是怎么回事?提炼,阐明⻅解。亲切的。更强的⾯部表情和沟通能⼒。是的。
可塑性和适应性。
Dylan Patel: 是的。
Lex Frdiman: 对社会群体的依赖。是的。好吧。并进⼀步进⾏⾃我批判和提炼。哇。这真的很
新奇吗?它是否得到了很好的⽀持?如此等等?我们得到的洞⻅是,⼈类不仅仅是社会动物,⽽
且是深刻⾃我驯化的猿类。⽽这种⾃我驯化是理解我们独特的认知和社会能⼒的关键。⾃我驯化
的猿。
Nathan Lambert: 我更喜欢 DeepSeek 反应。
Lex Frdiman: 我的意思是,这很新奇。⻅解新颖。我是说,这是个好书名。⾃我驯化的猿。就
像有理由这样做⼀样。我的意思是,是的,它很酷,它揭示了推理。它. 它很神奇。太神奇了。
就像这个真的很强⼤。⼤家好,我是莱克斯,在播客结束后有⼀个简短的中场休息。由于我们在这次对话中回顾了 DeepSeek、R1 和 Gemini Flash 2.0 的回应,我认为在这个时刻,我可以快
速地为 OpenAI 01 Pro 和 o3-mini 做同样的提示,这个提示是关于⼈类的⼀个真正新颖的⻅解。
既然我有机会在不同的环境和应⽤中花很多时间使⽤它,我想我会给出我的感应检查和基于感应
的轶事报告。所以我可能会把这个问题归类为,⽐如说开放式的哲学问题。特别是对新颖性的强
调,我认为这是⼀种很好的⽅式来测试模型的能⼒之⼀,即提出⼀些让你停下来并⼏乎让你惊讶
于其辉煌的东⻄。也就是说,在运⾏了这个问题的每个模型很多次后,我的总体评价是,O1Pro
始终给出了精彩的答案,这些答案让我停下来思考,既有深刻的⻅解,⼜有⾮常好的措辞,既有
智慧,⼜有清晰,有细微的差别,⼀次⼜⼀次地不断产⽣最佳答案。在那之后是 R1,它不太⼀
致,但再次提供了辉煌。Gemini Flash 2.0 Thinking 是第三名,最后⼀名是 o3-mini。事实上,
它经常给出⼀个相当普通的答案,⾄少对我的特殊情感来说是这样。也就是说,在我为头脑⻛暴
⽬的⽽测试的⼀系列其他应⽤程序中,它实际上⼯作得⾮常好,并且经常优于 R1。但在这个开
放式的哲学问题上,它⼀直表现得更糟。 现在,这些模型中的每⼀个的另⼀个重要元素是如何呈
现推理。DeepSeek R1 展示了思想标记的完整链条,我个⼈很喜欢这些开放式的哲学问题。看
到模型思考它真的很有趣,但我也只是退后⼀步,作为⼀个欣赏智慧、推理和思考的⼈,阅读
R1 的这种思想链原始标记。在⼀个智能系统中观察思考的路径是⼀件真正美妙的事情。我认为
我们⼈类并不总是有明确的计划,所以在另⼀个智能系统中看到它,它的⾮线性类似于詹姆斯 ·
乔伊斯的《芬尼根的守灵夜》中的尤利⻄斯,它看起来很美。总之,正如我们在 DeepSeek ⼀集
中讨论的那样,R1 谈到⼈类能够通过集体假装⾦钱、法律和权利等抽象规则是真实的,从⽽将
⾃私的欲望转化为合作系统。这些共同的幻觉就像游戏⼀样,竞争被秘密地重新引导,以使群体
受益,将冲突转化为社会的燃料。双⼦座 2.0 闪光思维说,⼈类不仅是社会动物,⽽且是⾃我驯
化的猿类,这种⾃我驯化是理解我们独特的认知和社会能⼒的关键。现在重要的是要说,那⾥的
思想链真的很有趣。它研究了地球上⽣命的整个进化过程,考虑了顶级掠⻝者,并考虑了我们是
如何从那⾥⾛到今天的。我认为选择驯化是⼀个⾮常有趣的⻆度。再说⼀次,当有⼈从不同的⻆
度来看待⼀件看似显⽽易⻅的事情时,这只会让我微笑。和深座 R1 ⼀样,这些⾦钱的幻觉, 法
律和权利,我们集体假装这是真的,我们和他们玩游戏,看起来像是竞争,⽽私下⾥我们只是互
相合作,这是进步的动⼒。说得很好。现在,OpenAI01Pro 总是⼀遍⼜⼀遍地提供⾹肠。我可以
讲很多,但第⼀个是⼈类是唯⼀⼀个将原材料转化为符号资源的物种,然后使⽤这些符号来重组
它们所来⾃的材料,在意义和物质之间创造⼀个封闭的反馈回路。在这⾥,我刚刚运⾏了⼀遍,
⼀个接⼀个。我告诉你,⼈类在已知物种中是独⼀⽆⼆的,因为他们同时改写了两个层⾯的现
实,外部世界和他们⾃⼰的私⼈精神景观,然后将这两个改写的层⾯合并成⼀个连续的个⼈叙
事,感觉客观真实。感觉很真实。这就是诗歌。好的,然后 o3-mini ⾼对我来说很聪明,实际上
很快,⽽且很普通。对我来说从来没有真正到达那⾥。这是我从 o3-mini 得到的第⼀个。⼈类不
是固定的存在,⽽是持续的叙述,是我们不断书写、编辑和重新诠释的动态故事。这种叙事的可
塑性不仅仅是记忆或⾃我反思。这是⼀个内在的认知过程,就像⼀个内在的纠错系统。它使我们
能够随着时间的推移调整我们的身份和价值观,以应对新的体验、挑战和社会环境。现在,它⼏
乎偷偷地达到了某种近似于切割洞察⼒的东⻄,在引号中具有叙事可塑性,但随后它⼜回到了那
种通⽤的东⻄。我不知道。由于不同的原因,所有这些模型都令⼈难以置信。正如我们在本期节
⽬中讨论的那样,有很多担忧,但也有很多令⼈兴奋的理由。我可能说得太久了。我严重睡眠不
⾜,处于神志不清的边缘,所以希望其中⼀些是有意义的。现在,亲爱的朋友们,回到这⼀集。
Dylan Patel: 我认为当你,你知道,Nathan 的观点,当你看推理模型时,对我来说,甚⾄当我使⽤ R1 和 01 时,有⼀种粗糙的感觉。对的?和闪光的想法,你知道,早些时候我没有使⽤这
个版本,但 12 ⽉的⼀个,它肯定有粗糙的边缘⻆落的感觉,对不对?在那⾥它只是没有在许多
⽅⾯得到充实。对的?当然,他们通过 RL 中的这些验证器添加了数学编码功能,但你知道,感
觉他们在某些⽅⾯丢失了⼀些东⻄。需要说明的是,01 在许多⽅⾯的表现也⽐聊天差。
Nathan Lambert: 不是很多。
Dylan Patel: 虽然不是很多,对吗?在我看来,R1 在某些⽅⾯⽐ V3 更糟糕,⽐如这样做。RL
表达和学习了很多,但后来在其他⽅⾯有所削弱。所以我认为这是这些模型和 01 提供的最⼤区
别之⼀。然后 OpenAI 有 o1-pro,他们⽤ O3 做了什么,这也是⾮常独特的,他们把搜索堆在思
想链的顶端。对的。因此,思想的链条是⼀件事,它的能⼒。这是⼀条链⼦。它回溯,来来回
回。但他们如何解决 ARC AGI 挑战并不只是思想的链条。它也是多次采样,即并⾏运⾏它们,
然后进⾏选择。
Nathan Lambert: 并⾏运⾏实际上是搜索吗?因为我不知道我们是否有关于 Zero1Pro 如何⼯
作的完整信息。我没有⾜够的信息来确信。
Dylan Patel: 说它是搜索,它是平⾏样本。
Nathan Lambert: 是的。
Dylan Patel: 然后它选择⼀些东⻄,我们。
Nathan Lambert: 不知道选择功能是什么。我们争论的原因是,⾃从 O 被宣布以来,有很多⼈
对蒙特卡罗研究技术感兴趣,这是你将思想链分解成中间步骤的地⽅。我们还没有定义思维的链
条。Chain of Thought 来⾃多年前的⼀篇论⽂,你在其中介绍了询问⼀种语⾔模型的想法,这种
语⾔模型在当时并不容易使⽤。你会说,让我们⼀步⼀步地验证。它将引导模型执⾏这些步骤。
思维链现在在模型中⼏乎是默认的,如果你问它⼀个数学问题,你不需要告诉它⼀步⼀步地思
考。蒙特卡洛树搜索的想法是,你可以在⽕⻋上取⼀个中间点,做⼀些扩展,花费更多,计算,
然后选择正确的⼀个。这就像是⼀种⾮常复杂的搜索形式,已经在 MU0 和 AlphaZero 中使⽤
过。潜在地。我知道 MU0 会这么做。
Dylan Patel: 搜索的另⼀种形式是询问五个不同的⼈,然后选择⼤多数⼈的答案。对的。有各
种各样的,你知道,它可能是复杂的,也可能是简单的。我们不知道它是什么,只知道它们是。
他们不只是按顺序发布⼀条思想链,⽽是同时发布多条思想链。在弧 AGI 中,他们平⾏发射了⼀
千个。为了他们的。真正让每个⼈震惊的是,他们会并⾏启动 1000 个,然后他们会得到正确的
答案,⽐如 80% 的时间或 70% 的时间,甚⾄ 90%。⽽如果他们只推出⼀个,那就是 30%。
Nathan Lambert: 这有很多延伸。我想说最简单的⼀点是,到⽬前为⽌,我们的语⾔模型被设
计为在⼀次回答中给出正确答案的时间百分⽐最⾼。我们现在正在打开⼤⻔,以不同的⽅式在我
们的模型上运⾏推理,我们需要重新评估训练过程的许多部分,这通常会打开更多进展的⼤⻔。
但我们不知道 OpenAI 是否改变了很多,或者他们所做的仅仅是更多的采样和多项选择,或者这
是更复杂的事情,他们改变了训练,他们知道推理模式将会不同。
Lex Frdiman: 所以我们谈论的是每⽉ 200 美元的 O Pro,⽽他们正在赔钱。因此,我们所指的
是对测试时间计算空间的迷⼈探索,这实际上是可能的吗?我们有⾜够计算机吗?财务状况有意
义吗?
Dylan Patel: 所以奇妙的事情是,它在我早些时候拉起的东⻄⾥,但 GPT3 的成本已经下降
了。如果你向上滚动⼏张图⽚。我认为最重要的是成本限制因素,对吧?我的观点是,在我们拥
有 AGI 之前,我们将拥有真正令⼈敬畏的智能,在我们让它渗透到整个经济之前。这就是为什么这个理由是正确的。GPT3 是在 2020 年、2021 年训练的,在它上⾯运⾏推理的成本是每百万代
币 60、70 美元。对的?也就是说,每份情报的成本是荒谬的。现在,经过两年的扩展,我们已
经将成本降低了 1200 倍,实现了与 GPT3 相同的智能⽔平。
Lex Frdiman:X 轴是⼏年的时间,Y 轴是对⼀百万个代币进⾏推理的对数美元。所以从 GPT 3
开始,在对数尺度上有⼀个线性下降。
Dylan Patel: 通过 35 到 Llama $0.05 或类似的东⻄,对吗?与 60 美元相⽐是 1200 倍。这不
是确切的数字,但它是 1200 倍。我记得这个数字是,是巨⼤的,巨⼤的每智⼒成本。现在对
DeepSeek 的恐惧是天啊,他们把它做得太便宜了。实际上,如果你看这条趋势线,它们⾸先不
低于趋势线,⾄少对于 GPT3 来说是这样的,对。他们是第⼀个击中它的⼈,对吗?这是⼀件⼤
事,但它们并不低于 GPT3 的趋势线。现在我们有了 GPT4。这些推理能⼒会发⽣什么,对吧?
它是架构创新的组合,它是更好的数据的组合,它将是更好的训练技术和所有这些不同的组合。
更好的推理系统更好的硬件。对的?从每⼀代 GPU 到新⼀代或 ASIC,⼀切都将使这条成本曲线
不断下降。然后,我是否可以⽣成⼀千个不同的 LLM 来创建⼀个任务,然后从其中选择⼀个或
其他?搜索,搜索技术。我想要⼀棵树,蒙特卡洛树搜索。也许它变得很复杂,也许不是因为它
太复杂⽽⽆法实际扩展。谁知道呢?惨痛的教训,对吧?问题是,我认为什么时候,⽽不是如
果,因为进展的速度是如此之快,对。九个⽉前,达⾥奥说,或者达⾥奥九个⽉前说,训练和推
理的成本是这样的。现在我们⽐这好多了。DeepSeek ⽐这个好多了。⽽ GPT4 的成本曲线在推
出时也是每百万代币约 60 美元,现在已经降到了 2 美元左右。对的。我们要把它降到美分,可
能是为了 GPT4 的质量。这就是我们今天所拥有的 O1 推理模型的基础。01 Pro 正在⽣成多个和
O3,以此类推。这些搜索技术在今天太昂贵了,但它们会变得更便宜。 这就是开启智慧的东
⻄,对吧?
- 英伟达(与它的股票)
Lex Frdiman: 所以它会越来越便宜。⼤的 DeepSeek R1 版本把每个⼈都吓坏了,因为它更便
宜。其中⼀个表现是英伟达股票暴跌。你能解释⼀下发⽣了什么吗?我的意思是,也只是解释这
个时刻,以及是否,你知道,如果英伟达将继续获胜。Nathan Lambert: 我想说,我们都是看好英伟达的⼈。在某些⽅⾯,市场的反应是合理的。⼤
多数市场,⽐如英伟达在美国的最⼤客户都是⼤型科技公司,他们在⼈⼯智能上投⼊了⼤量资
⾦。DeepSeek 的⼀个简单解释是,你可以得到⾮常好的模型,⽽不需要在⼈⼯智能上花费太
多。所以在这种情况下,就像是,哦,也许这些⼤型科技公司不需要在⼈⼯智能上花那么多钱,
然后就会倒闭。实际发⽣的事情要复杂得多,有社会因素,有应⽤程序商店的崛起,有正在发⽣
的社会传染。然后我认为其中⼀些就像,我不是,我不交易,我对⾦融市场⼀⽆所知,但它在周
末或社会压⼒中积累起来,就像,如果是在⼯作⽇,有很多天的交易,但它在周末到来,然后每
个⼈都想卖出。我认为这是⼀种社会传染病。
Dylan Patel: 我认为。就像有很多错误的叙述,就像,嘿,这些家伙在模型上花了数⼗亿美
元,对吧?他们也不会在模特上花费数⼗亿美元。没有⼈在公开发布的模型上花费超过 10 亿美
元,对吗?GPT4 是⼏亿,然后他们⽤ 4.04 Turbo 40 降低了成本,对吗?但⼗亿美元的模型运
⾏即将到来,对不对?这包括训练前和训练后,对吗?然后另⼀个数字就像,嘿,DeepSeek 并
不包括⼀切,对吗?他们不包括,你知道,很多费⽤都花在了研究和所有这类事情上。很多成本
都花在了推理上。很多费⽤都花在了岗位训练上。这些东⻄都没有考虑到研究⼈员的薪⽔,对
吧?就像所有这些东⻄都被计算在 OpenAI 花费的数⼗亿美元中,但它们没有被计算在
DeepSeek 花费的 600 万,500 万美元中,对吧?所以,但是对这些数字有⼀些误解。然后还有
⼀个英伟达的元素就是⼀条直线,对吧?有太多不同的说法⼀直在试图打压英伟达。我不是说要
压低英伟达的股价。每个⼈都在寻找卖出或担⼼的理由,对吗?你知道,这是,这是布莱克威尔
延误,对不对?他们的 GPU。你知道,有很多报告,每两周就有⼀份关于他们的 GPU 被推迟的
新报告。这就是关于标度定律终结的整个事情,对吧?太,太讽刺了,对吧?
Nathan Lambert: 持续了⼀个⽉。
Dylan Patel: 这是,这只是,这只是字⾯上的意思,嘿,模型并没有变得更好,对不对?他们只是没有好转。没有理由花更多的前期训练。缩放是死的。然后是 0103,对吗?
扬声器 B:R1,R1,对吗?
Dylan Patel: 现在就像是,等等,模特们也在进步,他们进步得太快了。放慢进度,停⽌在
GPU 上花钱,对吧?但你知道,我认为最有趣的事情是贾⽂的悖论是真的,对吗?在过去的⼏
周⾥,AWS 对 H1 数百的定价已经上涨。对的。⾃从,⾃从,⾃从。⾃从圣诞节后不久,⾃从
V3 发布以来,AWS H100 的价格已经上涨。H2 100 ⼏乎到处缺货,因为,你知道,H200 有更
多的内存,因此 R1,就像,你知道,想要超过 H100 的芯⽚。对的。
Nathan Lambert: 我们试图在本周的短时间内获得 GPU 进⾏演示,但这并不容易。我们试图
获得 16 或 32h1 的演示,这并不容易。
Lex Frdiman: 所以对于那些不知道的⼈来说,Gen 的悖论是,你知道,当效率以某种⽅式神
奇地、违反直觉地上升时,总资源消耗也会上升。
Dylan Patel: 对。半导体是,你知道,我们是 50 年的摩尔定律。每两年,成本减半,晶体管加
倍,就像时钟⼀样。很明显,它正在放缓,但是,就像半导体⾏业⼀直在上升⼀样。对的。它是
波浪形的。对的。显然有周期之类的东⻄。我也不指望⼈⼯智能会有什么不同。对的。会有潮起
潮落,但这是。在⼈⼯智能中,它只是在⼀个疯狂的时间尺度上进⾏。对的。每两年两次。这是
三年内的 1200 倍。对的。所以这就像改进的规模,就像,很难理解。
Lex Frdiman: 是的。我很困惑,因为对我来说, 英伟达的股票应该上涨,但也许它下跌是因
为怀疑中国⽅⾯的犯规⾏为或类似的事情 。但如果你只看这⾥的实际原则,就像,这是显⽽易⻅
的。是啊。
Dylan Patel: 特别是⼈⼯智能取得的进步或更⾼的⼈⼯智能进步的衍⽣物。你应该。因为英伟
达在最好的地⽅。衍⽣品的价格越⾼,市场就会越快变得更⼤、更快扩张。 英伟达是⽬前唯⼀⼀
家能够可靠地完成所有⼯作的公司 。
- GPU Smuggling(⾛私)
Lex Frdiman: 因为它不像英伟达的竞争对⼿。这是。这是另⼀家使⽤英伟达的公司。
Nathan Lambert: 从历史上看,它⼀直是 NVIDIA 的⼤客户。
Lex Frdiman: 是的。
Dylan Patel: 并发布了关于他们为成为中国最⼤的英伟达客户⽽欢呼的新闻稿。对的。就像,
是的,显然他们已经安静下来了,但是,就像,我认为这是另⼀个元素。他们不想说他们有多少
GPU。
Lex Frdiman: 是的。
Dylan Patel: 因为,嘿,他们。是的,他们有 H8 百?是的。他们有 H20。他们也有⼀些 H1
百,对。是⾛私进来的。
Lex Frdiman: 你能对那个说话吗?⾛私。⼀个国家为公司⾛私的可⾏规模有多⼤?有没有可
能。
Dylan Patel: 我认为,我认为这⾥有⼏个⾛私的⻆度,对。⼀个是字节跳动,可以说是中国最
⼤的 GPU ⾛私者。对的。中国不应该有 GPU。字节跳动拥有超过 500,000 个 GPU。为什
么?因为它们都是从世界各地的公司租来的。他们从甲⻣⽂租⽤,他们从⾕歌租⽤,他们从所有
这些⼤众租⽤。还有⼀批规模较⼩的云公司。对的。世界上所有的近地天体,他们租了这么多的
GPS。他们也买了⼀堆。对的。他们这样做就像 Meta 所做的⼀样,对吧。服务抖⾳。对的。提供下⼀个最好的单独讨论,与 Meta 相同。
Nathan Lambert: 对。
Dylan Patel: 明确地说,这就是今天的⽤法,对吗?这是⼀个有效的。对的。⿊掉多巴胺回
路。对的。现在,从理论上讲,这在很⼤程度上受到了⼈⼯智能扩散规则的限制,这发⽣在拜登
政府和特朗普政府的最后⼀周。看起来他们会保留他们,这甚⾄限制了像新加坡这样的盟友,新
加坡就像是英伟达的 20%。2020 年,英伟达收⼊的 30%。但是新加坡有⼀个关于 15 年没有建
⽴数据中⼼的纪念,因为他们没有⾜够的电⼒。那他们要去哪⾥?我的意思是,我不是说他们都
要去中国,对吗?但⼀部分是。要知道,很多都是去⻢来⻄亚,包括微软、甲⻣⽂在⻢来⻄亚都
有⼤数据中⼼。就像你知道的,他们正在去整个东南亚,可能还有印度。对的。就像有东⻄路
由,但就像扩散规则是⾮常实际的。就像你只能从这个国家购买这么多的 GPU。你只能把这么
⼤的集群租给中国公司。对的。就像他们⾮常明确地试图阻⽌⾛私⼀样。对的。其中很⼤⼀部分
是,嘿,让你知道,随机的公司,购买 16 台服务器,把它们运到中国。对的。事实上,我看到
⼀张来⾃半导体⾏业的⼈的照⽚,他领导着⼀个与英伟达竞争的⽹络芯⽚团队,他发了⼀张照
⽚,⼀个⼈带着⼀个这么⼤的超级微型盒⼦登上了从旧⾦⼭⻜往上海或深圳的联合航空公司的头
等舱,这个盒⼦只能容纳 GPU。对的。他预订了头等舱,因为想想看,3 到 5K 的头等舱机票服
务器成本,你知道,在美国是 240,000,250,000。你在中国卖 30 万。等等,你刚刚得到了
⼀张免费的头等舱机票和更多的钱。所以这就像,你知道,这就像⼩规模的⾛私。⼤多数⼤规模
的⾛私活动就像新加坡和⻢来⻄亚的公司⼀样,像是在四处寻找路线,或者完全合法地租⽤
GPU。
Nathan Lambert: 我想加⼊。规模是多少?我认为有⼀些数字,⼀些对经济学有更⾼理解的⼈
说,当你从 10 亿⾛私到 100 亿⾛私时,就像你在隐藏⼀定程度的经济活动。对我来说,最合理
的事情是,在某种程度上,很明显,更容易找到这种经济活动。和。
Dylan Patel: 是的,所以,所以,所以我的,我的,我的信念是,去年⼤概是这样,所以英伟
达制造了 100 万台 H20,这些 H20 是法律允许运往中国的。我们讨论的是更好的推理,对吧?
推理⾄少不是,也许不是,不是训练,⽽是推理推理和推理⼀般。然后他们也有,你知道,⼏⼗
万。我们认为⼤概有 200 到 300,000 个 GPU 从新加坡、⻢来⻄亚、美国发送到中国,⽆论公
司在哪⾥产⽣ 16 个 GPU,64 个 GPU,⽆论它是什么,都可以发送。众所周知,华为在 2018
年被禁后,建⽴了⼀个由类似公司组成的庞⼤⽹络,以获得他们所需的材料。所以它不像是超凡
脱俗的。但我同意,对。Nathan 的观点是,嘿,你不能⾛私 100 亿美元的 GPU,然后第三种来
源是现在被禁⽌的,你知道,这不被认为是⾛私,但中国正在租⽤,我相信从我们的研究来看,
对。甲⻣⽂最⼤的 GPU 客户是字节跳动。对的。对于⾕歌来说,我认为它是他们的第⼆⼤客
户,对吗?所以,你可以沿着云的列表往下看,特别是这些较⼩的云公司,它们不像超⼤规模的
公司,对吧。思考超越核⼼编织甚⾄ Lambda。有⼀整⽚海。有 60 家不同的新云公司为 NVIDIA
GPU 提供服务。我想字节跳动租了很多这样的东⻄,对吧?到处都是,对。因此,这些公司正
在向中国公司出租 GPU。这是完全的。在扩散规则之前是完全合法的,这发⽣在⼏周前。即使
是现在,您也可以租⽤少于 2,000 个 GPU 的 GPU 集群,或者您可以购买 GPU 并将其运送到
任何您想要的地⽅,如果它们少于 1500 个 GPU 的话。对的?所以还是有⼀些⾛私的⽅法。但
是,是的,它不是,你知道,随着数字的增⻓,对。你知道,英伟达去年有 1000 亿美元的收
⼊,今年有 2000 亿美元。对的。 如果明年,你知道,它可以,它可以再增加⼀倍或超过⼀倍。
对的。基于我们所看到的数据中⼼的⾜迹,⽐如在美国和世界其他地⽅建设的数据中⼼,中国将很难跟上这些规则,对吗?是的。总会有⾛私和 GPT 的 DeepSeek 级别模型,4 级模型,01 级
模型能够训练中国所能得到的东⻄,甚⾄是更⾼级别的。但是如果我们加速运⾏更多的跳跃到⼗
亿美元的模型,100 亿美元的模型,那么它就变成了,嘿,中国在训练模型和为它们服务⽅⾯有
⼀个计算机劣势。上菜很关键,对吧?DeepSeek 今天不能为他们的模型服务,对吧?它完全没
有库存了。它已经开始在应⽤程序商店的实际下载中下降,因为你下载它,你尝试注册,他们说
我们不接受注册,因为他们没有能⼒。对的?你打开它,如果你的请求得到批准,你每秒得到不
到 5 个令牌,对吗?因为没有容量,因为他们没有⾜够的 GPU 来为模型服务,尽管它的效率令
⼈难以置信。
Lex Frdiman: 观察⾛私会很有趣,因为我的意思是,有毒品⾛私,对吗?这就是市场,武器⾛
私和 GPU 将在某个时候超过它。
- 蒸馏:DeepSeek 基于 OpenAI 的数据进⾏训练
Nathan Lambert: 到⽬前为⽌,可能是我们每公⽄的最⾼价值。我还有⼀个问题要问你,迪
伦。您是否在国际上跟踪模型 API 访问?中国公司使⽤托管模型 API 的难易程度如何?
Dylan Patel: 美国。是的,我的意思是,这⾮常容易,对吗?就像 OpenAI 公开声明的那样,
DeepSeek 使⽤他们的 API,正如他们所说,他们有证据,对吧?这是训练制度的另⼀个元素,
OpenAI 的⼈声称这是⼀个提炼的模型。也就是说,你正在使⽤ OpenAI 的模型,你正在⽣成⼤
量的输出,然后你在他们的模型中对输出进⾏训练。即使是这样,他们所做的仍然是惊⼈的。顺
便说⼀下,DeepSeek 做了什么。
Nathan Lambert: 蒸馏的效率是⼯业上的标准做法。⽆论你是否在⼀个封闭的实验室⾥,在那
⾥你密切关注服务条款和知识产权,你都可以从⾃⼰的模型中提取。如果你是⼀名研究⼈员,你
没有构建任何产品,你可以从 OpenAI 模型中提取。
Lex Frdiman: 这是⼀个很好的机会。你能解释⼀下作为⼀个过程的⼤画⾯蒸馏吗?什么是蒸
馏?过程是什么?
Nathan Lambert: 谈了很多关于训练语⾔模型的问题。他们受过⽂字训练。在后期训练中,你
试图在⾮常⾼质量的⽂本上进⾏训练,你希望模型与其特征相匹配。或者如果你使⽤ RL,你让
模型找到它⾃⼰的东⻄。但是对于偏好数据的监督微调,您需要完成⼀些⼯作。模型试图学习模
仿什么,你在那⾥做什么,⽽不是⼈类数据,或者不是你⽬前正在训练的模型,你从⼀个不同
的,通常更强⼤的模型中完成。我认为有传⾔说,⼈们正在等待的这些⼤模型,这些世界上的
GPT5,世界上的克劳德 3 号作品,在内部被⽤来做这个蒸馏过程。在⼀天结束的时候。
Dylan Patel: 也是公开的例⼦,对吗?像 META ⼀样,明确说明,不⼀定是蒸馏,但他们在他
们的 Llama 3.2 或 3.3 中使⽤ 405B 作为 70B 的奖励模型。
Nathan Lambert: 是的,这都是同⼀个话题。
Lex Frdiman: 那么这是,这是道德的吗?这合法吗?⽐如为什么,为什么《⾦融时报》⽂章标
题说 OpenAI 说有证据表明中国的 DeepSeek 使⽤其模型来训练竞争对⼿。
Dylan Patel: 这是⼀个很⻓的,⾄少在学术和研究⽅⾯有很⻓的历史,因为你试图解释 OpenAI
的规则。OpenAI 的服务条款说,你不能⽤他们模型的输出来构建⼀个竞争对⼿。服务条款与许
可证不同,许可证本质上是组织之间的合同。因此,如果你在 OpenAI 的帐户上有服务条款,如
果我违反了它,OpenAI 可以取消我的帐户。这与说明如何使⽤下游⼯件的许可证有很⼤不同。
所以这很⼤程度上取决于⼀个在⼈⼯智能领域⾮常不清楚的词,那就是什么是竞争对⼿?Dylan Patel: 所以,道德⽅⾯的问题是,为什么我在你的模型上训练是不道德的,⽽你可以在
互联⽹的⽂本上训练。
Lex Frdiman: 是的。
Dylan Patel: 对。
Lex Frdiman: 所以这有点虚伪,因为 OpenAI 和潜在的⼤多数公司都在未经许可的情况下接受
了互联⽹⽂本的训练。
Nathan Lambert: 还有⼀个明显的漏洞,那就是我从 OpenAI ⽣成数据,然后我把它上传到某
个地⽅,然后别⼈在上⾯训练,链接就断了。就像他们不在相同的服务合同条款下⼀样。
Dylan Patel: 这是,这就是为什么很多。
Nathan Lambert: 在嘻哈⾳乐中,有很多细节需要被发现,这些细节没有太多意义。
Dylan Patel: 这就是为什么今天的很多模型,即使他们在零 OpenAI 数据上训练,你问谁训练
你的模型,它会说我是由 OpenAI 训练的 ChatGPT,因为互联⽹上有太多类似 OpenAI 输出的复
制粘贴,你⽆法将其过滤掉。在 RL 中没有任何他们实施的东⻄,⽐如 “嘿”,⽐如 “后训练” 或 “
SFT ”,不管它说什么,嘿,我实际上是艾伦研究所的模型,⽽不是我们必须这样做。
Nathan Lambert: 如果我们提供演示,我们会做研究,我们会使⽤ OpenAI API,因为它很有
⽤,我们想了解训练后的情况。我们的研究模型,他们会说它们是由 OpenAI 编写的,除⾮我们
把我们谈到的系统道具放进去,我是 Tulu,我是艾伦⼈⼯智能研究所训练的语⾔模型。如果你问
⾏业中更多的⼈,特别是有岗位训练的⼈,这是⼀个⾮常可⾏的任务,让模型说出它是谁,或者
抑制 OpenAI 的东⻄。所以在某些层⾯上,Deepseak 可能并不在意它说它是由 OpenAI 开发
的。就像如果你要上传模型重量,这并不重要,因为任何在应⽤程序中提供服务并⾮常关⼼服务
的⼈都会这样做。当服务它时,如果他们使⽤它来完成特定的任务,他们会根据这⼀点来调整
它,它说它是 ChatGPT 并不重要。
Lex Frdiman: 哦,我明⽩了。我想其中⼀种⽅法是系统提示或类似的东⻄。就像如果你在服务
它,就说你在。
Nathan Lambert: 这就是我们所做的。就像如果我们主持⼀个演示,你说你是 Tulu。3 由艾伦
⼈⼯智能研究所训练的语⾔模型。我们也从 OpenAI 数据中受益,因为它是⼀个很好的研究⼯
具。
Lex Frdiman: 我的意思是,你认为 OpenAI 声称有证据表明中国的 DeepSeek 使⽤这种模型
进⾏训练的说法有任何真实性和价值吗?
Dylan Patel: 我认为每个⼈都从中受益,因为数据在互联⽹上,因此它现在在你的前期训练
中。对的?就像 SubReddit ⼀样,⼈们分享最好的 ChatGPT 输出,这些是,这些是在你的,我
认为。
Nathan Lambert: 他们试图改变叙述,就像他们试图保护⾃⼰⼀样。我们在⼏年前就看到了这
⼀点,当时字节跳动实际上被禁⽌在⼀些 OpenAI API 中进⾏输出训练。还有其他的⼈⼯智能创
业公司,如果你在⼈⼯智能⽂化中,⼤多数⼈都会喜欢,他们只是告诉我们他们在 OpenAI 输出
上进⾏了训练,他们从来没有被禁⽌。这就是他们如何引导他们的早期模型。因此,使⽤它⽐建
⽴⼈⼒管道和建⽴⼀个强⼤的模型更容易起步。所以这⾥有很⻓的历史,很多交流看起来像是。
Dylan Patel: 实际上,在过去的⼏天⾥,我们看到很多⼈将 DeepSeek 的模型提取到 Llama 模
型中,因为 DeepSeek 模型进⾏推理有点复杂,因为它们是专家的混合体,你知道,它们是
6000 多亿个参数,⼈们将它们提取到 Llama 模型中。然后因为 Llama 模型很容易服务,每个⼈都建⽴了管道和⼯具来推断 Llama 模型,对吗?因为它是开放标准。所以你知道,我们已经看到
了,我们已经看到了⼀种迂回,对吧,就像它,它是坏的吗?它是⾮法的吗?也许这是⾮法的,
随便吧。我不知道那件事,但就像。
Nathan Lambert: 这可能会破坏合同。我不认为这是⾮法的,就像在任何法律中⼀样,没有⼈
会因此⽽坐牢。
Lex Frdiman: 我认为,从根本上说,我认为这是道德的,或者我希望这是道德的,因为⼀旦我
们禁⽌这种事情,它会让每个⼈的情况都变得更糟。我也,实际上,这很难,但我认为你应该被
允许在互联⽹上训练。我知道很多作者和创作者对此⾮常敏感。这是,这是⼀个很难的问题。但
就像 Mo ⼀样,当你不被允许在互联⽹上训练时。
Nathan Lambert: 我同意。
Dylan Patel: 我,我,我对如何解决这个问题有⼀种精神分裂的看法,因为它已经起作⽤了。
Nathan Lambert: 我对此有合理的看法。
Lex Frdiman: 好的,好的。
Dylan Patel: 所以。所以你知道⽇本有⼀项法律,允许你在任何训练数据上进⾏训练,如果你
想训练⼀个模型 A,B,⽇本有 9 千兆瓦的削减核能。根据⼈⼯智能扩散规则,⽇本被允许进⼝
尽可能多的 GPU。所以我们所要做的就是,我们在这⾥有⼀个市场。我们建⽴⼤规模的数据中
⼼,我们把它们租给实验室,然后我们以法律允许的⽅式训练模型。没有 “如果”、“和” 或 “但
是”。现在模特们没有来⾃《纽约时报》的潜在版权诉讼或类似的东⻄。没有,没有。这是完全合
法的。
Nathan Lambert: 没有。
Dylan Patel: 太天才了。
Nathan Lambert: 早期的版权诉讼对⼈⼯智能训练有利。我想说的是,使⽤的⻓尾将进⼊⼈⼯
智能领域,也就是说,如果你搜集了数万亿的数据,你不会看到数万亿的数据标记,你不会看到
并说《纽约时报》的这篇⽂章对我来说⾮常重要。但是,如果你正在为⾳乐或图像⽣成做⾳频⽣
成,并且你说让它成为 X Person 的⻛格,这是⼀个合理的情况,你可以计算出他们在推理上的
利润率。我不知道它是否会是 YouTube 创作者计划的 5050 或什么的,但我会选择以作家的身份
加⼊该计划。就像,就像,就像那样。只是,这将是⼀段艰难的旅程,但会有⼀些有意义的解决
⽅案。但在互联⽹上有⼀条⻓⻓的尾巴。
Lex Frdiman: 我认为《⾦融时报》那篇⽂章还暗示了另⼀个⽅⾯。这就引出了⼀个更普遍的问
题。你认为有。从公司内部刺探、刺探和窃取实际密码和数据有多难?有多少⼈在尝试这样做?
Nathan Lambert: 代码和数据很难,但想法很容易。硅⾕运作于。在这种情况下,顶级员⼯被
其他公司收购以获得加薪。这些公司这样做的⼀个很⼤的原因是他们带来了想法。有,没有,我
的意思是在加州有⼀些规定,⽐如竞业禁⽌协议或任何在加州⾮法的规定。不管有没有保密协议
之类的东⻄,很多事情都是这样发⽣的。最近有⼀个来⾃双⼦座的⼈,他帮助制作了这个 100 万
的上下⽂⻓度。每个⼈都在说下⼀个 Llama ,我的意思是他去了 Meta 团队,将会有 100 万个上
下⽂⻓度。这就是这个世界。
Dylan Patel: ⼯作,你知道,就像⼯业间谍和过去⾮常成功的事情⼀样,对。你知道,美国⼈
这样对待英国⼈,中国⼈也这样对待美国⼈。对的。你知道,等等等等。只是,这是⽣活的现
实。因此,我认为⼯业间谍活动不太可能被阻⽌。你可以让它变得困难。但即便如此,所有这些
故事都是关于,嘿,F35 和 F22 已经在设计,游戏计划和材料,代码和材料⽅⾯给了中国。就像之间。我说公司,⽽不是⺠族国家可能是⾮常困难的。但是想法被讨论了很多,对吧。⽆论是旧
⾦⼭的家庭聚会,还是公司更换员⼯,或者总是被谈论的神秘蜜罐。有⼈得到了蜜罐,因为每个
从事⼈⼯智能的⼈都是 20 多岁和 30 多岁的单身汉。不是每个⼈,但疯狂的百分⽐的疯狂数量。
所以总是有这样的,你知道,很明显。
Lex Frdiman: 所以蜂蜜盆栽就像⼀个间谍,⼀个⼥间谍接近你⼀样。
Nathan Lambert: 是的,是的,或者,或者男性。
Dylan Patel: 对。你知道,这是旧⾦⼭。对的。但你知道,作为⼀个单身男⼈,我会说他快 30
岁了,对吧。就像我们很容易堕落。对的。就像,你知道,就像不,不是堕落的我⾃⼰,但你知
道,就像我们,我们是,对。
Lex Frdiman: 其他⼈,不是我。
Dylan Patel: 是的,没错。
Nathan Lambert: 我太健忘了,⽽且我不是单身,所以我不会被间谍访问。
- AI Megaclusters(巨型集群)
Lex Frdiman: 是的,你必须确保关闭所有的安全漏洞。所以你,迪伦,为每个主要的⼈⼯智能
公司收集了⼤量关于每个⼤型集群的信息。你能谈谈每⼀个突出的建筑吗?
Dylan Patel: 是的。所以我认为这些⼤型集群建设的真正重要之处在于它们的复杂性,其规模
是前所未有的。对的。我们,你知道,有点像数据中⼼的电⼒消耗⼀直在缓慢上升,即使通过云
计算⾰命,它也上升到了 2.3%。对的。数据中⼼消费占美国总消费的百分⽐,这已经有⼏⼗年
了,对吧。数据中⼼等等。它⼀直在爬,慢慢地爬。但现在是 2% 到 3%,到这个⼗年末,就像
甚⾄,甚⾄低于,你知道,当我说 10% 的时候,很多⼈传统上是 20,28,20,30 ⼈,传统上
是⾮传统的数据中⼼⼈员。就像坚果⼀样。但是,就像那些在⼈⼯智能中的⼈⼀样,他们真的看
着这个,就像⼈类和开放的⼈⼯智能⼀样,这是不够的。我想,好吧,但是,你知道,这是,这
既是通过全球分布或分布在美国各地,也像是集中的集群,对吧?分布在美国各地的是,是令⼈
兴奋的,这是它的⼤部分,对不对?就像,嘿,你知道,OpenAI 或者你知道,说 Meta 正在增
加千兆瓦,对吗?但其中⼤部分是通过美国分发的,⽤于推理和所有其他事情,对吗?
Lex Frdiman: 所以也许我们应该列出什么是集群。所以你知道,这包括 AWS 吗?也许谈论不
同类型的集群是好的,你所说的超级集群是什么意思,什么是 GPU,什么是计算机。是的,不
是很久以前,但是是的。那么我们所说的集群构建是什么意思呢?
Dylan Patel: 我以为我要做苹果的⼴告,对吗?电脑是什么?所以传统上,数据中⼼和数据中
⼼任务⼀直是⼀个分布式系统问题,能够分布得⾮常⼴泛,对吧?例如,我向⾕歌发送⼀个请
求,它会被路由到离我⽐较近的数据中⼼。它做任何搜索,排名推荐,返回结果,对吗?任务的
性质正在迅速变化,因为现在⼈们真正关注的是两个任务,对吗?它不是数据库访问,它不是为
我提供正确的⻚⾯,为我提供正确的⼴告。现在这是⼀种推论。推理与传统的分布式系统有很⼤
的不同,但它看起来更简单,更相似。然后还有训练,对吧?推论⽅⾯仍然是,嘿,我要在这些
数据中⼼周围的块中放置数千个 GPU。我要在上⾯运⾏模型。你知道,⽤户提交请求,被踢
出,或者,嘿,我的服务,你知道,他们向我的服务提交请求,对吗?他们在说话,他们就像,
哦,是的,帮我副驾驶。它把它踢开了。我在我的 Windows Copilot 上,不管是什么苹果智能,
不管它是什么,它都会被踢到⼀个数据中⼼,对吗?那个数据中⼼做了⼀些⼯作,然后把它送回
来。这就是推论。这将是计算的主体。但你知道,这就像,你知道,有成千上万的数据中⼼,我们正在跟踪像卫星和所有这些其他的东⻄,这些是正在建设的⼤部分。但规模。所以这就像是真
正的重塑,这就是获得数百万 GPU 的原因。但最⼤集群的规模也⾮常重要。对的。当我们回顾
历史,对,就像你知道的,或者通过,通过⼈⼯智能时代,对。当他们做 AlexNet 的时候,这真
的是⼀件⼤事,我想是两个 GPU 还是四个 GPU,我不记得了。这真的是件⼤事。
Nathan Lambert: 这是⼀件⼤事,因为你使⽤ GPU。
Dylan Patel: 这是⼀件⼤事。他们使⽤ GPU,他们使⽤多个。对的。但随着时间的推移,它的
规模⼀直在扩⼤,对吧?所以当你跳到 GPT3,然后 GPT4,GPT4,20,000,100 个 GPU 前
所未有的运⾏,对。就尺⼨和成本⽽⾔,对。在 YOLO 上花了⼏亿美元。对的?为 GPT4 运⾏
YOLO。它产⽣了这种神奇的改进,与实验结果完全⼀致。就像对数刻度⼀样。
Nathan Lambert: 哦,是的,从报纸上看,技术是其中的⼀部分。
Dylan Patel: ⽐例定律是完美的。对的。但这并不是⼀个疯狂的数字,对吧?⼤约 20,000。
每个 GPU 的功耗为 400 瓦。然后当你加⼊整个服务器,对,所有的东⻄,它就像 15 到 20 兆瓦
的电⼒,对。你知道,你知道,也许你可以查⼀下⼈类的消费能⼒是什么,因为数字会变得很愚
蠢。但是,15 到 20 兆瓦是标准的数据中⼼规模。这是前所未有的。所有的 GPU 都在运⾏⼀个
任务。
Nathan Lambert: 烤⾯包机的功率是多少瓦?
Dylan Patel: 烤⾯包机就是⼀个很好的例⼦。与 A100 的功耗相似,对。H100 来了,他们把功
率从 400 瓦增加到 700 瓦。这只是每个 GPU。然后围绕着它有所有相关的东⻄。所以⼀旦你把
所有这些都算上,所有的东⻄⼤概都是 1200 到 1400 瓦。⽹络,CPU,内存,等等等等。
Lex Frdiman: 所以我们也应该说,那么需要什么?你说的是权⼒。所以需要很⼤的能量。产⽣
⼤量热量。所以需要冷却。因为有很多 GPU 必须。或者 CPU 之类的,它们必须连接在⼀起。
所以有很多⽹络。
Dylan Patel: 是的,是的。所以我想,是的,很抱歉跳过了这个。然后数据中⼼本身就很复
杂,对吧?但这些仍然是 GPT4 规模的标准化数据中⼼。对的?现在我们来看看⼈们去年建⽴的
集群的规模是多少,对吧?它的范围很⼴,对吧?它的范围从,嘿,这些是标准的数据中⼼,我
们只是使⽤多个数据中⼼并将它们连接在⼀起,它们之间有⼤量的光纤,⼤量的⽹络,等等。这
就是 OpenAI 和微软在亚利桑那州所做的,对吧?所以他们有 100,000 个 GPU,对吗?元相似
的东⻄。他们采⽤了标准的现有数据中⼼设计,它看起来像⼀个氢,他们将多个数据中⼼连接在
⼀起,他们⾸先做了 16,000 个 GPU,总共 24,000 个 GPU。只有 16 个。他们中的数千⼈在
训练中运⾏,因为 GPU ⾮常不可靠。因此,他们需要有备件,以交换进出所有的⽅式。现在有
10 万个 GPU,他们⽬前正在 Llama 4 上训练,对吗?⼤概 12.8 万左右吧?想想 100,000 个
GPU,每个⼤约 1400 瓦。那是,那是,那是 140 兆瓦。150 兆瓦,对。为了 128,对。所以你
说的是你在两年内从 15 到 20 兆瓦跳到了 10 倍,你知道,⼏乎是这个数字的 10 倍,9 倍到
150 兆瓦,对。从 2022 年到 2024 年。对。有些⼈喜欢埃隆,他承认,对。他说他⾃⼰进⼊这
个游戏的时间有点晚,因为他对⼤型语⾔模型进⾏了预训练,对吧?赛赛是后来开始的,对吧?
但后来他,他赌上了天堂和地狱,把他的数据中⼼建起来,得到了世界上最⼤的集群,对,那就
是 20 万个 GPU。他做到了。他在孟菲斯买了⼀家⼯⼚。他正在升级变电站,但同时他得到了⼀
堆移动发电,⼀堆单循环联合。 他接通了⼯⼚旁边的天然⽓管道,拉出了⼀吨天然⽓,燃烧天然
⽓,他产⽣了所有这些能量。他在⼀家⼯⼚⾥,在⼀家很久以前关闭并搬到中国的旧家电⼯⼚
⾥,你知道,他有 20 万个 GPU。现在下⼀个尺度是什么?对。就像所有的超⼤规模公司都这样做了⼀样。现在下⼀个规模是更⼤的,对吧?所以你知道,埃隆,只是为了坚持这个话题,他正
在建造⾃⼰的天然⽓⼯⼚,就像隔壁的⼀个合适的⼯⼚。他正在部署数吨的特斯拉 Megapack 电
池,以使电⼒更加平稳,以及其他各种事情。他⽤⼯业冷却器来冷却⽔,因为他⽤⽔来冷却芯
⽚。所以所有这些疯狂的事情都是为了让集群变得越来越⼤。但当你看到 OpenAI 对星际之⻔所
做的事情时,那就是在亚利桑那州。在德克萨斯的阿⽐林,对吗?他们⾄少宣布了什么,对吧?
它还没建成,对吧?埃隆说他们没有钱。你知道,关于这⼀点有⼀些争论,但⾄少在整个范围
内,第⼀部分是这样的,肯定是钱占了,但有多个部分。但全⾯的数据中⼼将达到 2.2 千兆瓦,
对吗?2200 兆瓦的电⼒,⼤约 1.8 千兆瓦或 1800 兆瓦的电⼒输送到芯⽚,对吗?现在。这是⼀
个荒谬的尺度。2.2 千兆瓦⽐⼤多数城市都要多,对吧?明确地说。交付给连接到进⾏训练的单
个集群,对吗?去训练这些模型,去做前期训练,后期训练,所有这些东⻄,对吧?
Lex Frdiman: 这太疯狂了。
Nathan Lambert: 什么是核电站?
Dylan Patel: 每个⼈都在这样做,对吗?路易斯安那州的每个⼈都在做 Meta Metta,对吧?他
们正在建造两个⼤型天然⽓⼯⼚,然后他们正在建造这个⼤型数据中⼼。亚⻢逊对这种规模有类
似的计划,⾕歌也有这种规模的计划。赛伊对这些规模有计划,对吧?就像所有这些⼈⼀样,那
些正在⽐赛的⼈,那些正在⽐赛的公司正在努⼒⽐赛,他们正在做多个千兆瓦的数据中⼼,对
吗?来建造这个。因为他们认为,是的,如果我现在有明显的预先训练,缩放将会继续,但在某
种程度上。但是还有所有这些训练后的东⻄,你有计算机使⽤的 RL 沙盒或其他东⻄,对吗?这
是他们要去的地⽅。所有这些都验证了可⾏的领域,他们只是不断学习,学习,学习。⾃我游
戏,不管它是什么,都会让 AI 变得更有能⼒,因为线确实上升了,对吧?投⼊越多计算,性能
就越⾼。这件衬衫是关于⽐例定律的,你知道,在某种程度上它是收益递减的,对吧?你 10 倍
的计算,你不会得到 10 倍更好的模型,对不对。你得到了递减的回报,但你也得到了效率的提
⾼。所以你弯曲了曲线。对的。这些规模的数据中⼼正在做,你知道,散发着恶臭,你知道,对
⽹络造成了很⼤的破坏。对的。你知道,内特 · Nathan 提到亚⻢逊试图收购塔⻰核电站,如果
你看看塔⻰的股票,它就像,就像⻜涨,你知道,就像他们在那⾥建造⼀个巨⼤的千兆瓦数据中
⼼。你知道,你只要沿着名单往下⾛。有这么多的分歧。有趣的是,在美国的某些地区,传输电
⼒的成本⽐实际发电的成本要⾼,对吧?因为电⽹的建设⾮常缓慢,对电⼒的需求和建设电⼒的
能⼒,就像重新增加天然⽓发电⼚,甚⾄是燃煤发电⼚⼀样,很容易做到。 但就像传输能量真的
很难。所以在美国的⼀些地⽅,⽐如弗吉尼亚州,传输电⼒的成本⽐发电的成本更⾼,这就像,
你知道,这⾥有各种各样的⼆阶效应,这是疯狂的。
Lex Frdiman: 电⽹能⽀持这种增⻓吗?
Dylan Patel: 你知道,特朗普的⾏政命令,在年底之前有⼀个拜登的⾏政命令,但后来特朗普
有更多的⾏政命令,希望将法规减少到,是的,可以建⽴的地⽅。但是,是的,这是⼀个很⼤很
⼤的挑战,对吧?建设⾜够的电⼒速度够快吗?
Lex Frdiman: 你是不是打算在每⼀个数据中⼼旁边都建⼀个核电站?
Dylan Patel: 所以,有趣的是,建造发电⼚的速度太慢了。建造发电⼚或重新配置现有发电⼚
的速度太慢。因此你必须使⽤⾃然数据中⼼。电⼒消耗持平。对的。你知道,我的意思是喜欢
它,它。
Nathan Lambert: 这就是为什么核能对它也有好处。就像⻓期核能是⼀个⾮常⾃然的选择。但
是,是的,你不能在短期内做太阳能或任何类似的事情。Dylan Patel: 因为数据中⼼的电⼒是这样的,对吗?就像你告诉我的那样,你知道,我打算购
买数百亿美元的 GPU,然后闲置它们,因为电⼒没有产⽣。就像电⼒很便宜,对吧?如果你看
看集群的成本,不到 20% 是电⼒,对吧。其中⼤部分是 GPU 的资本成本和折旧。对的。所以这
就像,好吧,管他呢,我就像,你知道,我就会建造天然⽓⼯⼚。这就是梅塔在路易斯安那州所
做的。这就是 OpenAI 在德克萨斯州所做的事情。就像所有这些不同的地⽅⼀样,他们可能不会
直接做这件事,但他们会与某⼈合作。所以。所以有⼏个希望,对吧?就像,⼀个是,你知道,
埃隆,他在孟菲斯所做的就像,你知道,到了极端。他们不只是使⽤双联合循环⽓体,这是超级
⾼效的。他也只是使⽤单循环和移动发电机之类的东⻄,效率较低。但另⼀⽅⾯,太阳能发电是
这样的,⻛能是另⼀个这样的。不同的关联,你知道,不同的。所以如果你把这两个都堆起来,
再加上你有⼀⼤块电池,再加上你有⼀点点汽油,就有可能让它运⾏得更环保。只是时间进度太
慢了,对吧?所以⼈们在努⼒。但梅塔基本上是说,⽆论如何,不要在乎我的可持续发展承诺。
或者他们会像每个电⼒⼀样购买,这被称为 PPA 电⼒购买协议,那⾥会有⼀个⼤型的⻛⼒发电
场或太阳能发电场,就像任何地⽅⼀样,然后他们会假装这些电⼦被数据中⼼消耗,但实际上他
们在这⾥为电⼒付费,并将其出售给电⽹,他们在这⾥购买电⼒。然后另⼀件事是微软放弃了他
们的⼀些可持续发展承诺,对吗?埃隆,他对孟菲斯的所作所为客观上有些肮脏, 但他也在⼀个
地区做这件事,⽐如隔壁有⼀个更⼤的天然⽓⼚,旁边有⼀个下⽔道,或者不是下⽔道,⽽是废
⽔处理和附近的垃圾场。对的?他显然让世界变得⽐⼀个数据中⼼要做的更⼲净,对吧?所以我
认为,这在某种程度上是好的,也许 AGI 解决了全球变暖之类的问题,对吧?不管它是什么,你
知道,这是,这是实验室⾥的⼈的⼀种态度,对吗?这就像,是的,这是伟⼤的,我们将只使⽤
天然⽓,对不对?因为⽐赛很重要,如果我们输了,那就更糟了,对吧?
Lex Frdiman: 我应该说,我有机会参观了孟菲斯数据中⼼,这真是太不可思议了。我是说,我
和埃隆⼀起去的。仅仅是团队和创新的速度是疯狂的,因为我的感觉是,你知道,从来没有⼈做
过这种规模的事情,当然也没有⼈以 XAI 正在做的速度做过这种规模的事情。所以他们想弄清
楚,我的意思是,我参加了所有这些他们头脑⻛暴的会议。这就像,这是疯狂的。这是令⼈兴奋
的,因为他们正在试图找出瓶颈是什么,如何消除瓶颈,如何确保,你知道,有这么多很酷的事
情要把数据中⼼放在⼀起,因为,你知道,⼀切都必须正常⼯作。这是⼈们喜欢的系统管理员,
机器学习,所有这些都是令⼈兴奋的事情,等等。但实际上运⾏⼀切的⼈是那些知道运⾏⼀切的
低级软件和硬件的⼈,⽹络,所有这些。所以你必须确保你有测试⼀切的程序。我想他们⽤的是
以太⽹。我不知道他们是怎么做的。
Dylan Patel: ⽹络,但他们使⽤的是 NVIDIA Spectrum Xe 以太⽹。实际上,我认为,是的,
⽆名英雄是冷却和电⼒系统,就像被掩盖了⼀样。
Lex Frdiman: 是的。
Dylan Patel: 但我认为,有⼀个故事可能说明了这件事有多疯狂,那就是当你在训练的时候,
你总是在做,你在运⾏⼀堆模型,对吗?⽤最简单的话来说,在模型中运⾏⼀串。然后你要交换
所有的东⻄并同步重量,对吗?所以你要做⼀个步骤。这就像是模特训练的⼀个步骤,对吧?每
⾛⼀步,你的损失都会减少,希望如此,但并不总是如此。但⽤最简单的话来说,你会计算很
多,然后你会交换,对吧?有趣的是,GPU 的能⼒是最重要的。⽹络的⼒量是⼀些,但它是少
得多。但是当你在计算的时候,你的 GPU 的能⼒就在这⾥。但是当你交换权重时,如果你不能
完美地重叠通信和计算,可能会有⼀段时间你的 GPU 处于空闲状态,你在交换权重,你会想,
嘿,模型在更新,所以你在交换梯度,你在做模型更新,然后你⼜开始训练。所以电⼒正常,它是超级尖峰。有趣的是,当你谈论数据中⼼的电⼒规模时,你可以很容易地把东⻄炸掉。所以
Meta 实际上意外地将⼀些内容上传到了 PyTorch 中的代码中,他们在其中添加了⼀个操作符。
我不骗你,不管是谁做的,就像,我想拥抱这个⼈,因为它说,PyTorch 说。就像 PyTorch Dot
发电⼚⼀样。没有爆炸等于 0 或等于 1。它所做的,它所做的是惊⼈的,对吗?要么,你知道,
⼀年当你交换权重时,GPU 只会计算假数字,所以功率不会太⼤。所以发电⼚不会爆炸,因为
短暂的尖峰就像把事情搞砸了⼀样。
Lex Frdiman: 嗯,有道理。我的意思是你必须做那种事。你必须确保他们没有闲着。是啊。
Dylan Patel: 埃隆的解决⽅案就像是,让我扔⼀堆特斯拉⼤包和其他⼀些东⻄,对吗?就像每
个⼈都有不同的解决⽅案。但就像梅塔⼀样,⾄少是公开的,公开的,众所周知的,就像设置这
个操作符⼀样。这个操作符所做的就是让 GPU 什么都不计算,这样功率就不会达到峰值。
Lex Frdiman: 但这只是告诉你你⼯作的⼒量有多⼤。我是说,这太疯狂了。这太疯狂了。
Nathan Lambert: ⼈们应该去⾕歌,⽐如规模,⽐如 X 瓦特是做什么的?从 1 瓦到 1 千瓦再到
1 兆瓦,你看着它,盯着它,你知道千兆瓦在名单上有多⾼吗?令⼈兴奋不已。
Lex Frdiman: 你能谈谈冷却吗?所以我,我知道埃隆使⽤液体冷却。我相信,在任何情况下,
这都是⼀件新鲜事,对吗?它们中的⼤多数不使⽤液体冷却。关于冷却,有什么有趣的事情要说
吗?
Dylan Patel: 是的,是的。因此,空⽓冷却已成为事实上的标准。扔⼀堆⾦属热管等和⻛扇,
对不对?就像冷却了⼀样。这⾜以让它冷静下来。⼈们⼀直在涉⾜⽔冷却。⾕歌的 TPU 是⽔冷
的,对吧?所以他们已经这样做了⼏年了。但有了 GPU,没有⼈做过,也没有⼈做过埃隆刚刚
做过的⽔冷规模。⽬前,下⼀代 NVIDIA 是针对最⾼端 GPU 的。这是强制性的⽔冷却。你必须
⽤⽔冷却它。但埃隆在这⼀代⼈身上做到了这⼀点,这需要很多东⻄。对的。如果你看⼀些卫星
照⽚和孟菲斯设施的东⻄,所有这些外部⽔冷却器基本上看起来像⼀个半卡⻋,⾖荚的东⻄,它
叫什么?那个容器。但实际上那些是冷⽔机组。他⼤概有 90 台⽔冷却器就在外⾯。90 个不同的
容器,对吧?⽤⽔,你知道冷却⽔,把它带回数据中⼼,然后你把它分配给所有的芯⽚,把所有
的热量排出,然后把它送回来。对的?这既是⼀种冷却芯⽚的⽅法,也是⼀种效率的⽅法。好
吧。回到三个⽮量的问题上,对吧?有,有,你知道,内存带宽,触发器和互连。芯⽚之间的距
离越近,就越容易实现⾼速互连,对吗?这也是为什么你想⽤⽔冷却的原因,因为你可以把芯⽚
放在⼀起,从⽽获得更⾼的连接速度。
Lex Frdiman: 我想问你,在你最近的⼀篇⽂章中,有⼀个叫做集群测量竞赛的部分。
Dylan Patel: 还有⼀个词,但我不会说出来。
Lex Frdiman: 现在谁的最⼤,谁的。
Dylan Patel: 今天会有最⼤的吗?个⼈最⼤的是埃隆,对吗?
Lex Frdiman: 埃隆的集群。
Dylan Patel: 埃隆在孟菲斯的集群,200,000 个 GPU,对吗?Meta 有 128,000 个,
OpenAI 有 100,000 个。现在,需要明确的是,其他公司拥有⽐埃隆更多的 GPU。他们只是没
有把它们放在⼀个地⽅,对吗?对于训练,你希望他们紧密相连。有⼀些技术,⼈们正在研究和
⼯作,让你在多个地区训练,但在⼤多数情况下,你希望他们都在⼀个地区,对不对?因此,您
可以通过⾼速⽹络将它们⾼度连接起来。所以,你知道,埃隆今天有 200,000 ⻢⼒的 H1,
100,000 ⻢⼒的 H2,100,000 ⻢⼒的 H2,对吗?Meta、OpenAI 和 Amazon 都在 10 万的规
模上略少⼀些。但是明年,对,今年⼈们会建造更多,对吗?Anthropic 和亚⻢逊正在建⽴⼀个40 万 Trainium 2 的集群,这是亚⻢逊专⽤的芯⽚,试图摆脱英伟达,对吗?你知道,Meta 和
OpenAI 的规模可达数⼗万,但到明年,你将拥有 50 万到 70 万个 GPU 集群。请注意,这些
GPU 的功耗⽐现有的要⾼得多,对吗?漏⽃,700 瓦。布莱克威尔达到 1200 瓦。对的?所以,
每个芯⽚的功率在增⻓,芯⽚的数量也在增⻓,对吧?
Lex Frdiman: 坚果。是的。你认为,你认为埃隆说他会得到⼀百万。你觉得这可⾏吗?
Dylan Patel: 我的意思是,我不怀疑埃隆,对吗?他的⽂件,⽐如,你知道,电⼒计划和特斯
拉电池组,很明显他对孟菲斯有⼀些疯狂的计划,⽐如许可证之类的东⻄是公开记录的,对吧?
但⽬前尚不清楚是什么以及时间尺度是什么。我从不怀疑埃隆,对吧?他会给我们惊喜的。
Lex Frdiman: 那么这些集群的想法是什么?如果你有⼀百万个 GPU,那么在两三年的时间
⾥,⽤于训练的 GPU 占多⼤⽐例?以及训练前的百分⽐和实际使⽤的百分⽐。
Dylan Patel: 这些巨型集群对推理没有意义,对吗?你可以在那⾥进⾏推理,⽽不是训练。但
⼤部分的推理能⼒是,你知道,嘿,我在这⾥有⼀个 30 兆瓦的数据中⼼,我在这⾥有 50 兆瓦,
我在这⾥有 100 兆瓦,等等。我将在所有这些中加⼊推论。因为⼤型集群,对,多千兆瓦数据中
⼼,我想在那⾥训练,因为我所有的 GPU 都位于那⾥,在那⾥我可以将它们以超⾼的⽹络速度
连接在⼀起。对的?因为这是你训练所需要的。现在有了预训练,这是旧的规模,对吗?你可以
增加参数,增加数据。模型变得更好。这已经不适⽤了,因为在训练前没有更多的数据,对吧?
是的,视频、⾳频和图像还没有被充分利⽤。所以有更多的扩展。但是很多⼈都有 YouTube 视
频的抄本,这让你得到了⼤量的数据,但并没有让你从视频和图像数据中获得所有的学习价值。
但在训练前仍需进⾏缩放。但在这个训练后的世界⾥,所有的失败都会被花掉,对吧?模特要⾃
⼰玩了。它会⾃⼰玩,它会做可验证的任务,它会在沙箱中使⽤计算机。它甚⾄可以做模拟机器
⼈的事情,对吧?就像所有这些东⻄都将是计算花费在引⽤或引⽤,训练后的环境。但我想会很
好的。我们要把这个岗位从岗位训练中撤下来。是的,这将是预先训练,这将是训练。我认为在
某种程度上,因为在过去⼏年的⼤部分时间⾥,训练前的训练已经让训练后的训练相形⻅绌。但
有了这些可验证的⽅法,特别是那些具有⽆限潜⼒的⽅法,⽐如计算机使⽤和机器⼈技术,⽽不
仅仅是数学和编码,你可以验证发⽣了什么, 那些⽆限可验证的任务,似乎你可以花费和你⼀样
多的计算。
Dylan Patel: 想要他们,尤其是在上下⽂⻓度增加的时候。因为当您增加这些模型的上下⽂⻓
度时,预训练结束。我们在前⾯的对话中讨论过,当你有⼀个⻓的输⼊时,上下⽂⻓度⽐输出更
容易管理。很多训练后和推理技术都依赖于⼤量的采样,⽽且它变得越来越⻓。所以实际上你的
计算效率下降了。我认为翻牌是衡量它的标准。但在 RL 中,你必须做所有这些事情,以不同于
训练前和⽣成时的⽅式移动你的重量,这将变得效率更低,FLOPS 将不再是⼀个有⽤的术语。
然后,随着基础设施变得更好,它可能会回到失败。
Lex Frdiman: 所以我们⼀直在谈论的所有东⻄最有可能是英伟达,对吗?有竞争对⼿吗?
Dylan Patel: ⾕歌。⾕歌。我有点忽略了他们。
Lex Frdiman:TPU 的故事是什么?
Dylan Patel: ⽐如 TPU 很棒,对吗?太棒了。⾕歌是。他们在建⽴数据中⼼⽅⾯有点不温不
⽕。出于某种原因,他们正在建设⼤数据中⼼,不要误解我的意思。他们实际上拥有最⼤的集
群。我说的是英伟达集群。它们实际上拥有最⼤的集群周期。但他们做的⽅式很有趣。对的。他
们有两种数据中⼼超级区域,对吧?因为数据中⼼不是物理上的。就像所有的 GPU 都不在⼀个
站点上⼀样,但它们彼此相距 30 英⾥,⽽不是 GPU。TPU,对吗?他们在爱荷华州和内布拉斯加州有四个数据中⼼,就像彼此相邻⼀样。
Lex Frdiman: 为什么⾕歌不调整它的集群规模?
Dylan Patel: 去多数据中⼼训练?⾥⾯有很好的图像。所以我会告诉你我的意思。它只是半分
析多数据中⼼。所以这就像,你知道,这是⼀个标准的⾕歌数据中⼼的图像。顺便说⼀下,他们
的数据中⼼看起来与其他公司的数据中⼼⾮常不同。
Lex Frdiman: 我们在这⾥看到的是什么?
Dylan Patel: 所以这些是。是啊。所以如果你,如果你看到这个图像在中间,有这些⼤的矩形
盒⼦。盒⼦,对。这些是真正的筹码存放的地⽅。然后如果你再往下滚动⼀点,你可以看到这些
⽔管,顶部有这些冷却器冷却塔和⼀堆柴油发电机。柴油发电机是备⽤电源。数据中⼼本身看起
来⽐冷⽔机组⼩。对的。所以薯⽚实际上更容易放在⼀起。但是然后冷却所有的⽔,对于⽔冷却
来说是⾮常困难的。所以⾕歌有⼀个⾮常先进的基础设施,这是其他⼈没有的。他们所做的就是
建⽴这些数据中⼼,他们在⼏个地区建⽴了⼀批这样的数据中⼼,对吧?所以如果你再往下⾛⼀
点,这是微软,这是在亚利桑那州。这是训练 GPT5 报价的地⽅。
Nathan Lambert: 如果它还不存在的话。
Dylan Patel: 是的,如果它还不存在的话。但是这些数据中⼼中的每⼀个,我都展示了它们的
⼏张图⽚。他们在同⼀个地区⾮常接近,对吗?内布拉斯加州,爱荷华州。然后他们在俄亥俄州
也有⼀个类似的。复杂的。对的。所以这些数据中⼼彼此⾮常接近,他们所做的就是⽤光纤将它
们连接起来,带宽⾮常⾼。所以这些只是⼀堆数据中⼼。这⾥的重点是,⾕歌拥有⾮常先进的基
础设施,在⼀个⼩区域内⾮常紧密地连接。因此,Elon 将始终拥有完全连接的最⼤集群。对的。
因为这⼀切都在⼀栋楼⾥。对的。他在这⼀点上完全正确。对的。⾕歌拥有最⼤的集群,但你必
须分布在三个站点上,⽽且要有很⼤的差距,但你必须跨越多个站点。
Lex Frdiman: 为什么⾕歌不与英伟达竞争?他们为什么不卖 TPU?
Dylan Patel: 我认为,我认为它有⼏个问题。这就像⼀个 TPU 已经成为⼀种让搜索变得⾮常便
宜的形式,并为此建⽴模型。对的?因此,就像搜索的⼀⼤块,GPU 购买或 TPU 购买或⾕歌的
购买和使⽤的⼀⼤块,所有这些都是⽤于内部⼯作负载,⽆论是 Search Now,Gemini,
YouTube,他们拥有的所有这些不同的应⽤程序,⼴告,这些都是他们所有的 TPU 花费的地
⽅,这是他们⾼度关注的。对的。因此,体系结构的某些⽅⾯针对其使⽤情形进⾏了优化,⽽在
其他地⽅没有进⾏优化。对的。⼀个简单的例⼦是他们开源了⼀个杰玛模型,他们称之为杰玛
7B,对吗?但实际上是 80 亿个参数,因为词汇量太⼤了。他们之所以把词汇量做得这么⼤,是
因为 TPU 的矩阵乘法单元很⼤,因为这是他们优化的原因。所以他们决定,好吧,我也要扩⼤
词汇量。尽管在这么⼩的模型上这样做是没有意义的,因为这适合他们的硬件。因此,杰玛在
GPU 上的运⾏效率不如 Llama 。对的。但反之亦然,Llama 在 TPU 上的运⾏效率不如杰玛。对
的。这就像硬件、软件共同设计的某些⽅⾯⼀样。所以他们所有的搜索模型都是他们的排名和推
荐模型,所有这些不同的模型都是⼈⼯智能,但不像⼈⼯智能。已经与 TPU 的超级优化永远。
软件堆栈是超级优化的。但是所有这些软件栈都没有公开发布。对的。它的⼀⼩部分,JAX 和
XLA 已经。但就像你在⾕歌内部的经历⼀样,作为⼀名研究⼈员,你在 TPU 上接受训练,在很
多情况下,你不需要了解任何关于硬件的知识,对吧?就像它很漂亮,但就像。
Nathan Lambert: 你⼀⾛出去,他们就都⾛了。很多⼈都回去了。他们离开⾕歌,然后⼜回
去。
Dylan Patel: 是的,是的,他们离开了,他们开了⼀家公司,因为他们有所有这些惊⼈的研究想法,他们想,等等,基础设施很难,软件很难,这是在 GPU 上,或者如果他们试图使⽤ TP,
同样的事情,因为他们⽆法访问所有这些代码。所以这就像你如何说服⼀家以搜索为摇钱树的公
司,他们从那⾥赚了数千亿美元,开始销售 GPU 或 TPU,他们过去只买了⼏⼗亿。你知道,我
认为在 2023 年他们购买了⼏⼗亿美元,现在他们购买了价值 100 亿到 150 亿美元的东⻄。但你
如何说服他们,他们应该购买两倍的数量,然后想办法卖掉它们,赚到 300 亿美元。⽐如谁在乎
赚 300 亿美元?
Lex Frdiman: 那 300 亿美元最终不会超过实际的搜索利润吗?
Dylan Patel: 我的意思是,你总是会在服务上赚更多的钱。我的意思是,是的,需要明确的
是,今天⼈们在硬件上的花费⽐在服务上的花费多得多。对的?因为硬件前端运⾏服务开销。但
就像你在投资⼀样。如果⼈⼯智能的东⻄没有收⼊或者没有⾜够的收⼊,那么很明显它会爆炸。
对的。你知道,⼈们不会永远把钱花在 GPU 上。英伟达正试图通过他们试图销售和授权的软件
和其他东⻄来提升堆栈。对的。但是,但是⾕歌从来没有像这样的 DNA,这是我们应该销售的
产品。对的。他们不⾏动。⾕歌云做到了。它是⼀个独⽴于 TPU 团队的组织,TPU 团队是⼀个
独⽴于 DeepMind 团队的组织,DeepMind 团队是⼀个独⽴于搜索团队的组织。对的。有很多官
僚作⻛。
Lex Frdiman: 等等,⾕歌云是⼀个独⽴的团队,⽽不是 TPU 团队?
Dylan Patel: 从技术上讲,TPU 位于⾕歌云下的基础设施之下。但就像⾕歌云⼀样,租⽤东⻄
和 TPU 架构是⾮常不同的⽬标。硬件和软件,就像所有这些。对的。与 JAX ⼀样,XLA 团队不
为 Google 的外部客户提供服务,⽽ NVIDIA 的各种 CUDA 团队则为 Nickel 等公司提供外部客户
服务。对的。像 Jackson XLA 这样的内部团队,他们更多地服务于 DeepMind 和搜索。对的。
所以他们的客户是不同的。他们不是在为他们制造产品。
Lex Frdiman: 你明⽩为什么 AWS ⼀直在与 Azure for Cloud 和 Google Cloud 的竞争中获胜
吗?是的,⾕歌云很⼩,不是吗?
Dylan Patel: 相对于 AWS,⾕歌云排名第三。是的,是的。微软是第⼆⼤,但亚⻢逊是最⼤
的。对的。微软欺骗性地包括了微软 Office 365 之类的东⻄,⽐如⼀些企业范围的许可证。所以
在现实中,鸿沟甚⾄更⼤。微软仍然是第⼆,对不对?亚⻢逊要⼤得多。为什么?因为使⽤
AWS 更好、更容易,⽽且在许多情况下,它更便宜,⽽且是第⼀个。
Nathan Lambert: 是第⼀次。
Lex Frdiman: 是的,但是有很多事情是第⼀位的。
Dylan Patel: 嗯,这很容易,转换⽐转换更难。转换的费⽤也很⾼。
Dylan Patel: 亚⻢逊⽹络服务为亚⻢逊创造了超过 80% 的利润。我认为超过 90%。
Lex Frdiman: 这太疯狂了。
Dylan Patel: 配送中⼼就像有⼀天我们会决定从中赚钱。但他们还没有。对的。就像他们从中
赚取了⼀点点利润。
Nathan Lambert: 是的。总有⼀天亚⻢逊 Prime 的价格会翻三倍。
Lex Frdiman: 你会认为他们会改进 AWS 界⾯,因为它很糟糕,很笨重。但每个⼈都是。
Nathan Lambert: 我,我,是的,你会认为。
Dylan Patel: 我,我认为实际上⾕歌的界⾯有时很好,但也好像他们不关⼼除了他们的顶级客
户之外的任何⼈。
Lex Frdiman: 没错。Dylan Patel: 就像他们的客户服务⼀样糟糕。就像他们拥有的少了很多。
Lex Frdiman: 就像,我的意思是所有这些公司,他们为⼤客户进⾏优化。是啊,应该是为了⽣
意。
Dylan Patel: 亚⻢逊也⼀直在为⼩客户进⾏优化。对的。很明显,他们为⼤客户优化了很多。
但是,就像,就像当他们开始的时候,他们只是去喜欢随机的海湾地区的东⻄,并给出学分。对
的。然后他们喜欢。或者把你的信⽤卡放进去,⽤我们的。对的。就像早期⼀样。所以他们总
是,业务与他们⼀起成⻓。对的。还有处⼥。就像为什么亚⻢逊,为什么雪花遍布亚⻢逊?因为
雪花在⼀开始亚⻢逊不关⼼他们的时候,还在使⽤亚⻢逊。对的。当然,有⼀天雪花和亚⻢逊有
了⼀个超级庞⼤的合作伙伴关系。但像这样的情况,像亚⻢逊的⽤户体验和质量是⽐较好的。此
外,他们设计的许多芯⽚使他们在传统的云存储、CPU ⽹络以及数据库等⽅⾯具有更低的成本
结构。对的。我认为亚⻢逊的五⼤收⼊产品中的四个,⽑利产品,对不起,⽑利产品都是与数据
库相关的产品,⽐如红移和所有这些东⻄。对的。所以亚⻢逊有⼀个⾮常好的硅⽤户体验,与
AWS 的整个管道。我认为⾕歌,他们的硅团队,是的,他们内部有很棒的硅,TPU,YouTube
芯⽚,他们制造的其他⼀些芯⽚。问题是他们不是在为外部客户服务,⽽是在为内部客户服务。
对的。
Nathan Lambert: 我的意思是,英伟达的整个⽂化都是⾃下⽽上设计的。最近有⼀本名为
《The Nvidia Way by Take Him》的书,详细介绍了这⼀点,以及他们如何寻找未来的机会,并
准备好他们的 CUDA 软件库,以便⾼性能计算的新应⽤可以在 CUDA 和 NVIDIA 芯⽚上快速发
展。这与⾕歌的服务业务完全不同。
Lex Frdiman: 是的,我的意思是英伟达,应该说,是⼀家真正特别的公司。就像我的意思是他
们,整体,⽂化,⼀切,他们真的优化了这种事情。说到这⾥,有没有⼈甚⾄可以挑战英伟达的
硬件智慧?英特尔?AMD?
Dylan Patel: 我真的不这么认为。我们经历了⼀个⾮常漫⻓的过程,与 AMD 合作,对他们的
GPU、推理和其他东⻄进⾏训练,他们做得很好。他们的硬件在很多⽅⾯都⽐英伟达的好,问题
是他们的软件真的很糟糕,我认为他们正在变得更好,对吗?他们好得更快了。但海湾太⼤了,
他们没有在这⽅⾯投⼊⾜够的资源,历史上也没有。也许他们现在改变了调⼦。但是你知道,因
为,因为,⼏个⽉来我们提交了最多的错误,对吗?就像我们半分析,对吧?⽐如他妈的什么?
⽐如为什么我们提交的 bug 最多,对吧?因为他们只关⼼他们最⼤的客户,所以他们会给他们⼀
个私⼈形象,等等等等。这就像,好吧,但就像我只是在使⽤ PyTorch,我想使⽤公开可⽤的
库,就像你不关⼼这个,对吗?所以他们,他们正在变得更好。但我认为 AMD 是不可能的。英
特尔现在显然处于⽔深⽕热之中,需要以某种⽅式加以拯救。对美国的国家安全⾮常重要。
Lex Frdiman: 你能解释⼀下吗?很明显。那么,他们为什么处于⽔深⽕热之中呢?
Dylan Patel: 回到早期,只有三家公司可以研发,对吗?台湾、新⽵、三星、平壤,然后是英
特尔希尔斯堡。三星的表现很糟糕,英特尔的表现也很糟糕。我们可能处在这样⼀个世界,只有
⼀家公司可以进⾏研发,⽽这家公司已经制造了⼤部分芯⽚。不管怎样,他们的市场份额⼀直在
增加。但就像,就像这是⼀个关键的事情,对不对?因此,台湾发⽣的事情意味着世界其他地区
的半导体产业,因此科技依赖于台湾,对吗?这显然是不稳定的。就像英特尔⼀样,他们⼀直在
缓慢⽽稳步地下降。他们是在服务器和个⼈电脑之上,但现在苹果完成了 M1,英伟达发布了个
⼈电脑芯⽚,⾼通发布了个⼈电脑芯⽚。在服务器⽅⾯,超⼤规模⼚商都在制造⾃⼰的基于
ARM 的服务器芯⽚。英特尔没有⼈⼯智能芯⽚的胜利,对吧?他们有⾮常⼩的胜利,他们从来没有进⼊移动领域,因为他们对 iPhone 说不,所有这些事情都加剧了,他们已经失去了他们的
流程技术领导地位,对吗?他们领先了 20 年,现在⾄少落后了⼏年,对吧?他们正在努⼒追
赶,我们将看到他们的 18A 和 14A 战略是否奏效,他们试图超越台积电和英特尔,这就像是损
失了⼤量的钱,对吗?他们刚刚解雇了他们的⾸席执⾏官,尽管⾸席执⾏官是唯⼀了解公司的
⼈。是的,我们会看到,他不是最好的,但他是相当不错的,相对技术的家伙。
Lex Frdiman: 英特尔在哪⾥赚钱最多?CPU。
Dylan Patel: 仍然是个⼈电脑和数据中⼼ CPU。是的,但数据中⼼ CPU 都在云计算中,亚⻢
逊,微软,⾕歌正在制造基于 ARM 的 CPU,然后在个⼈电脑⽅⾯,AMD 的市场份额增加了。
英伟达正在推出⼀款不会成功的芯⽚。对的。联发科,⾼通曾经推出过芯⽚。苹果做得很好。对
的。就像,就像他们。他们在个⼈电脑上可能会受到⼀些挤压。虽然个⼈电脑⼀般我想只会坚
持。英特尔主要⽤于 Windows 端。
- 谁是 AGI 的最后赢家
Lex Frdiman: 让我们来谈谈⼴泛的⼈⼯智能竞赛。你觉得谁会赢?谁谈到了⾕歌?
Nathan Lambert: 默认的领导者是⾕歌,因为他们的基础设施优势。
Lex Frdiman: 嗯,就像新闻中⼀样,OpenAI 是领导者。
Nathan Lambert: 他们是这⽅⾯的领先者。
Dylan Patel: 他们有最好的模型。
Nathan Lambert: 他们有⼈们可以使⽤的最好的模型,⽽且他们是。
Dylan Patel: 他们拥有最多的⼈⼯智能收⼊。
Nathan Lambert: 是的。OpenAI 正在取得胜利。
Lex Frdiman: 那么现在谁在⼈⼯智能上赚钱?有⼈赚钱吗?
Dylan Patel: 所以从利润的⻆度来看,微软是在赚钱,但他们花了很多资本⽀出。对的。你知
道,那会随着时间的推移⽽贬值。梅塔赚了很多钱。但是有了推荐系统,也就是⼈⼯智能。但不
是 Llama 。对的。拉玛肯定在赔钱。对的。我认为 Anthropic 和 OpenAI 显然没有赚钱,因为否
则他们就不会筹集资⾦。对的。他们必须筹集资⾦来建造更多。对的。虽然理论上他们是在赚
钱。对的。就像你知道的,你在 GPT4 上花了⼏亿美元,⽽它却创造了数⼗亿美元的收⼊。所以
很明显,这就像赚钱⼀样。尽管他们必须继续研究才能获得计算效率的胜利。对的。然后沿着曲
线向下移动,就像你知道的那样,12 得到了 GPT3 已经达到的 1200 倍。你知道,也许我们现在
只有⼏百倍,但你知道,有了 GPT4、Turbo 和 4.0,即使在某个时候推出,也会有另⼀种可能
⽐ GPT4O 更便宜的产品。
Lex Frdiman: 这项研究花费了很多钱。
Dylan Patel: 是的,没错。
Lex Frdiman: 我想这是与成本⽆关的事情,当你提到模型的成本时,它不仅仅是训练或测试运
⾏,⽽是实际的研究。⼈⼒。
Dylan Patel: 是的。去做⼀些事情,⽐如现在就去推理它的存在。他们会扩⼤规模,他们还会
做⼤量的研究。我认为⼈们关注的是回报问题,但很容易就像这样,好吧,GDP 是⼈类和⼯业
资本。对的。如果你能让智能变得便宜,那么你就能增⻓很多。对的。这是⼀种愚蠢的解释⽅
式,但这基本上就是投资的主题。我认为只有英伟达和其他硬件供应商实际上赚了很多钱,超⼤
规模⼚商都在纸⾯上赚钱,但实际上他们在购买 GPU 上花了很多钱,你不知道两年后他们是否还能在每个 GPU 上赚这么多钱。对的。你不知道 OpenAI 会不会突然变得很糟糕,现在微软有
成千上万的 GPU,他们租给了 OpenAI,他们⽤⾃⼰的投资购买了这些 GPU,但这些 GPU 不再
有客户了。对的。这始终是⼀种可能性。我不相信。我认为 OpenAI 将继续筹集资⾦。我认为其
他⼈会继续筹集资⾦,因为⼀旦我们有了 AGI,投资和回报最终将是巨⼤的。
Lex Frdiman: 那么你认为多家公司会得到。让我们假设。
Dylan Patel: 我不认为这是赢家通吃。
Lex Frdiman: 好的,所以它不是,让我们不要叫它 AGI,⽆论什么。就像⼀天⼀样。它是,它
是⼀个渐进的⼈⼯智能,超级强⼤的⼈⼯智能,但它是,它是⼀组逐渐增加的有⽤的功能,并快
速增加快速,快速增加的功能集。所以你是说很多公司都会。所有这些公司都在建造巨⼤的数据
中⼼,这似乎很荒谬。
Nathan Lambert: 有些公司会从⼈⼯智能中受益,但不是因为他们进⾏了训练。像 Meta 这样
最好的模式有很多途径可以从⼈⼯智能和他们所有的服务中受益,⼈们在那⾥,⼈们花时间在
Meta 的平台上,这是⼀种从每个⽤户每⼩时赚更多钱的⽅式。
Lex Frdiman: 是的,看起来就像⾕歌 X 斜线 Xai 斜线特斯拉。重要的是要说。然后,Meta 将
不会像 LLM ⼀样直接受益于⼈⼯智能,⽽是受益于智能,⽐如对他们已经销售的产品的额外智
能提升。所以⽆论是推荐系统还是埃隆,他⼀直在谈论擎天柱,机器⼈,潜在的机器⼈智能,然
后你在家⾥有个性化的机器⼈,诸如此类的事情。他认为这是⼀个⼗多万亿美元的⽣意,在某种
程度上,也许。
Nathan Lambert: 我不知道,不会很快,但谁知道呢。
Dylan Patel: 什么机器⼈技术?让我们做⼀个 TAM 分析。对的?80 亿⼈类,让我们得到 80 亿
机器⼈。对的?让我们⽀付他们的平均⼯资,是的,就这样。10 万亿。超过 10 万亿。
Lex Frdiman: 是的。我的意思是,如果到处都有机器⼈,为什么只有 80 亿个机器⼈?
Dylan Patel: 是的,当然,当然我会得到,我会有⼀个机器⼈,你会有 20 个。
Lex Frdiman: 是的,我的意思是我看到了⼀个使⽤案例。所以,是的,所以我想好处是他们销
售的产品,这就是为什么 OpenAI 处于⼀个棘⼿的位置,因为他们。
Nathan Lambert:OpenAI 现在作为⼀个品牌的所有价值都在 ChatGPT 中,实际上对于⼤多数
⽤户来说,他们没有太多的理由需要 OpenAI 在下⼀个最好的模型上花费数⼗亿美元,因为他们
可以授权 Llama 5,⽽且价格更便宜。所以这有点像 ChatGPT 对他们来说是⼀个⾮常有价值的
实体,但他们可以从中赚更多的钱。
Dylan Patel: 聊天应⽤程序显然是这样的,没有⾜够的空间继续。对,就像标准的聊天,对,
你只是⽤它来回答随机问题之类的。对的。成本继续崩溃。V3 是最新的,最⼤的,但它会得到
⼴告的⽀持,对吗?就像,你知道,Llama 梅塔已经服务了 405B,可能会赔钱。但在某种程度
上,你知道,他们会得到,模型会变得如此便宜,以⾄于他们可以在⼴告⽀持下免费提供服务。
对的?这就是⾕歌将能够做到的,⽽且很明显,他们已经有了更⼤的影响⼒,对吧?因此,聊天
不会是唯⼀的⽤例。就像这些推理代码,代理,计算机使⽤,所有这些东⻄都是 OpenAI 在未来
赚钱的地⽅,否则它们就完蛋了。
Lex Frdiman: 但是 X,Google 和 Meta 有这些其他产品,所以它没有。OpenAI 和 Anthropic
最终不会消失吗?
Dylan Patel: 除⾮他们很擅⻓做模特,他们确实很擅⻓。
Lex Frdiman: 但它是如此的先进。Nathan Lambert: 我的意思是,这取决于你认为⼈⼯智能的发展⽅向。
Lex Frdiman: 你必须保持胜利。是的,你必须在攀登的过程中保持胜利。即使⼈⼯智能的能⼒
发展得超级快,也是令⼈敬畏的。进⼊ AGI 的⽅向,就像 X 在数据⽅⾯,⾕歌在数据⽅⾯,
Meta 在数据⽅⾯,在其他产品⽅⾯,仍然有⼀个提升。还有钱。还有⼀⼤笔钱。
Dylan Patel: 整个想法是⼈类数据被挖掘出来。我们不在乎。我们都关⼼⾃我游戏。可验证
的。是的。
Lex Frdiman: ⾃我发挥,这是⼀个研发问题。
Nathan Lambert:AWS 并没有在每台机器上赚很多钱。最强⼤的⼈⼯智能平台也是如此,尽管
对 API 的调⽤⾮常便宜,但拥有该平台仍然可以赚很多钱。因为它是下⼀个计算层,所以有很多
讨论。
Dylan Patel: 你必须相信这⼀点,你知道,有很多讨论认为代币、代币经济学和 LLM API 是下
⼀个计算层或下⼀个经济范式。就像能源和⽯油⼀样。但你也必须相信,API 和聊天并不是⼈⼯
智能陷⼊困境的地⽅。对的。它实际上只是任务、代理、机器⼈和计算机使⽤,这些都是所有价
值将被交付的领域。不是 API,不是聊天应⽤程序。对的。
Lex Frdiman: 你有没有可能。我的意思是,这⼀切都变成了⼀种商品,你有⼀个⾮常薄的包
装,就像困惑⼀样。开个玩笑。
Nathan Lambert: 有很多包装⼯赚了很多钱。
Lex Frdiman: 是的。但你认为⼈们有可能忘记 OpenAI 和 Anthropic 是什么吗?因为 API 周围
有包装器,⽽且是动态的。
Dylan Patel: 如果模型进展不快。是的,它. 它正在成为⼀种商品。对的。DeepSeek V3 显示
了这⼀点,但 GPT3 图表也显示了这⼀点。对的。Llama 3B ⽐ GPT3 便宜 1200 倍。任何
GPT3,就像任何商业模式是 GPT3 级别功能的⼈⼀样,都是死的。任何商业模式是 GPT4 级别
功能的⼈都是死的。
Nathan Lambert: ⼈们常说,现在最好的企业是那些建⽴在模式变得更好基础上的企业。
Lex Frdiman: 对。这就像包装纸⼀样,在模型的浪潮中乘⻛破浪。
Nathan Lambert: 从短期来看,能赚最多钱的公司是那些能找出适合语⾔模型⽣成的⼴告定位
⽅法的公司。我们有元⼴告,这些⼴告在 Feed 中⾮常有针对性,⽽不是在特定的内容中。我们
有⾕歌和亚⻢逊使⽤的搜索⼴告,在搜索上上升了很多。但在 ChatGPT 的回报中,并不清楚如
何在输出中获得⾼质量的投放⼴告。如果你能在模型成本下降的情况下做到这⼀点,你就能获得
超⾼的收⼊,就像收⼊完全没有被利⽤⼀样,技术上也不清楚它是如何做到的。
Lex Frdiman: 是的,我指的是⾕歌所做的那种 AdSense 创新。有⼀天你会在 GPT 中输出⼀
个⼴告,那将会赚到数⼗亿美元。
Nathan Lambert: 它可能⾮常微妙,它可能在对话中,就像我们现在有语⾳模式⼀样。这可能
是某种制造它的⽅法。所以声⾳介绍了某些事情。这很难衡量,⽽且需要想象⼒。但是是的。
Lex Frdiman: 也不会这么糟糕。它不会变得可疑。所以你会受到公众的反对,诸如此类的事
情。所以你必须把声⾳调得⾜够⼤,才能清楚这是⼀个⼴告,并平衡这⼀切。所以这是他们试图
解决的开放问题,⼈类和 OpenAI。
Nathan Lambert: 他们需要,他们可能不会说。
Dylan Patel: 我认为他们根本不关⼼这个。
Nathan Lambert: 他们现在不关⼼这个。我想那是个地⽅。我认为他们的困惑更多地是在做实验。
Lex Frdiman: 哦,有意思。是啊,当然。
Dylan Patel: ⽐如困惑。⾕歌元关⼼这⼀点。我认为 OpenAI 和 Anthropic 纯粹是专注于 AGI
的激光。代理和 AGI。如果我建⽴了 AGI,我可以赚很多钱。对的。或者我可以花钱,⽀付⼀
切。对的。这是,这是,它只是基于类似出⼝管制的事情。对的。如果你认为 AGI 是 5 年、10
年或更短的时间。对的。这些实验室认为还有两三年的时间。很明显,你的⾏动是,你知道,如
果你假设他们是理性的⾏动者,他们⼤多是你在两年内做的事情,⽽不是五年或⼗年。⾮常,⾮
常,⾮常不同。对的。
- AI Agents
Lex Frdiman: 你认为代理商有前途吗?我们得谈谈这个。这是,这就像今年的兴奋点,代理商
将会修订。这是许多商业⼈⼠正在使⽤的通⽤炒作术语。AI 将彻底改变⼀切。
Nathan Lambert: 好的。所以⼤多数情况下,“代理⼈” 这个词显然被夸⼤了。我们已经讨论了
很多关于强化学习作为⼀种训练可验证结果的⽅法。智能体应该是开放式的,能够独⽴解决任
务,并能够适应不确定性。有很多术语代理应⽤于像苹果智能这样的东⻄,在上⼀次全球开发者
⼤会之后,我们仍然没有,这是在应⽤程序之间进⾏协调,这种类型的⼯具使⽤是语⾔模型可以
做得很好的事情。我猜想,苹果智能最终会到来。这是⼀个封闭的领域,它是你的消息应⽤程序
与你的照⽚集成,在后台有⼈⼯智能,这将是可⾏的。这被很多软件公司描述为代理。为了进⼊
叙述,问题是我们有什么⽅法可以让语⾔模型推⼴到新的领域,并实时解决它们⾃⼰的问题?也
许是⼀些少量的训练,当他们这样做的时候,通过微调⾃⼰或在情境学习中,这是在提示中存储
信息的想法,你可以使⽤学习算法来更新它。⽆论你是否相信这实际上会推⼴到像我说的,预订
两天后去奥斯汀的旅⾏,我有 XYZ 约束,并且实际上相信它。我认为有⼀个 HCI 的问题,回来
获取信息。
Lex Frdiman: 好的,你的预测是什么?因为我的直觉告诉我,我们离那个⽬标还很远。
Dylan Patel: 我认为 OpenAI 的声明,我不知道你是否⻅过五个级别,其中聊天是第⼀级,推
理是第⼆级,然后代理是第三级。我认为还有⼏个层次,但重要的是要注意,对吧,我们聊了⼏
年,对吧?我们只是从理论上进⾏推理。我们会在这⾥呆上⼀两年,对吗?然后是特⼯。但同
时,⼈们可以尝试并喜欢下⼀个级别的近似能⼒,但代理正在⾃主地做事情,⼀次做⼏分钟,⼀
次做⼏个⼩时,等等。对的。推理就是⼀次做⼏⼗秒的事情,对吧?然后返回⼀个输出,我仍然
需要验证和使⽤,并尝试,检查。对的?当然,最⼤的问题是,制造业也是如此,对吧?这是整
个六⻄格玛的事情。你得了多少个 9?然后你把 9 加在⼀起,就像如果你乘以六⻄格玛的步骤
数,你就会得到⼀个产量之类的东⻄。所以在半导体制造中,⼏万个步骤,99-9999 是不够的,
对吧?因为你乘以这么多倍,你实际上得到了 60% 的收益。
Nathan Lambert: 对吗?
Dylan Patel: 产量很低。是啊。或者零。这和特⼯是⼀样的,对吧?就像每次都把任务链接在
⼀起。LLM,即使是最好的 LLM,在特别好的基准测试中也不能达到 100%,对吧?因为有很多
噪⾳,所以它们会稍微低⼀点。所以你如何得到⾜够的 9。对的。这和⾃动驾驶是⼀样的。我们
不能有⾃动驾驶,因为没有像⾕歌那样的超级地理围栏。对的。即使这样,他们也有⼀群电话接
线员来确保它不会卡住。对的。但你不能这样做,因为它没有⾜够的 9。
Lex Frdiman: ⾃动驾驶有很多结构,因为道路有规则,有明确的定义,有监管。例如,当你谈论开放⽹络或开放操作系统的计算机使⽤时,就像没有。⼀团糟。所以喜欢这种可能性。我总是
对任何负责与⼈类世界,与开放、混乱的⼈类世界互动的系统持怀疑态度。
Nathan Lambert: 这就是问题所在。如果我们不能获得⾜够的智能来解决⼈类世界的问题,我
们可以多年来为 Waymo 创建类似于⼈类操作员的基础设施,以实现某些⼯作流程。
Dylan Patel: 有⼀家公司,我不记得了,但确实有。但从字⾯上看,他们的说辞是,是的,当
代理失败时,我们只是⼈类操作员,你只要打电话给我们,我们就能解决问题。它。是的,它就
像⼀个 API 调⽤,它很搞笑。
Nathan Lambert: 当我们有了⼈类机器⼈开关时,将会有远程操作市场。当我对我的洗碗机不
满意时,世界上会有⼈很乐意解决这个问题。但这只是特斯拉服务包的⼀部分。
Lex Frdiman: 我只是想象⼀个 AI Agents 与另⼀个 AI Agents 交谈。⼀家公司有⼀个 AI
Agents,专⻔帮助其他 AI Agents。
Nathan Lambert: 但是如果你能在⼀个步骤中做出好的东⻄,你可以,是的,你可以把它们堆
在⼀起。所以这就是为什么我。如果它需要很⻓时间,我们将构建⽀持它的基础架构。你看到运
营商推出,他们与某些⽹站有合作关系,与 DoorDash,与 OpenTable,与这样的东⻄。这些伙
伴关系将让他们爬得⾮常快。他们的模型将在这些事情上变得⾮常出⾊。这将是⼀个概念验证,
这可能是⼀个⽹络效应,更多的公司想让⼈⼯智能变得更容易。有些公司会说,不,让我们把拦
截器放在适当的位置。
Lex Frdiman: 是的。
Nathan Lambert: 这就是互联⽹的故事。我们已经看到了,我们现在看到了语⾔模型的训练数
据,公司就像,不,你必须像企业⼀样付钱。
Lex Frdiman: 也就是说,我认为航空公司有⼀个⾮常。酒店有很⾼的动机让他们的⽹站⼯作得
很好,他们通常不喜欢你看多少点击才能订购机票,这是疯狂的。我不要。
Nathan Lambert: 实际上你再也不能给美国航空公司的代理⼈打电话了。他们没有电话号码。
Lex Frdiman: 我的意思是,对于许多界⾯前端的⼈来说,想象代理商能够处理该⽹站是很可怕
的。当我作为⼀个⼈类挣扎时,就像我每次试图订机票时都会有⽣存危机⼀样,我认为建⽴⼀个
强⼤的 AI Agents 将是极其困难的。
Nathan Lambert: 但是想想看。曼联已经接受了星联条款,即他们必须免费提供星联。⽤户会
喜欢它的。如果⼀家航空公司是这样的,我们要花⼀年的时间,我们要让我们的⽹站有⽩⾊的⽂
字,完美地为 AIS ⼯作。每当有⼈询问⼈⼯智能航班时,他们就会购买任何航空公司的航班。
Dylan Patel: 或者就像他们⼀样,这⾥有⼀个 API,它只暴露给 AI Agents,如果有⼈质疑它,
价格会⾼出 10%。以及任何航班。但是我们会让你看到我们的任何航班,你可以预订其中的任何
⼀个。给你,⻢特探员。然后它就像⾃⼰的⼀样,我把价格提⾼了 10%。极好的。
Lex Frdiman: 是的。
Dylan Patel: 就像,我愿意说,嘿,给我订⼀张去看莱克斯的机票。对的?这就像,是的,随
便吧。
Lex Frdiman: 是的,是的。
Dylan Patel: 我认为,我认为,你知道,计算机和现实世界以及开放世界是⾮常⾮常混乱的。
但如果你开始在狭窄的区域内定义问题,⼈们将能够创造出⾮常⾮常有⽣产⼒的东⻄,并⼤幅降
低成本。对的。就像现在疯狂的事情,⽐如家庭中的机器⼈,这些将会变得更加困难。就像⾃动
驾驶⼀样,因为只有⼗亿种不同的故障模式。但是代理商可以浏览特定的⽹站,完成特定的任务,或者给你的冰箱拍照,或者上传你的⻝谱,然后它会计算出从亚⻢逊订购什么,全⻝超市,
⻝品配送,我认为这将是⾮常快速和容易的。因此,这将是⼀系列的业务成果,将会有⼤量的乐
观情绪。⼈们可以找到赚钱的⽅法。
Nathan Lambert: 需要明确的是,这些沙盒已经存在于研究中。有些⼈克隆了⾕歌、亚⻢逊等
所有最受欢迎的⽹站,这样就有了。我的意思是,OpenAI 可能在内部有他们来训练这些东⻄。
就像 DeepMind 的机器⼈团队多年来⼀直拥有机器⼈集群⼀样,你可以完全远程地与机器⼈互
动。他们只是在伦敦有⼀个实验室,你给它发送任务,安排积⽊,然后你做这个研究。很明显,
有⽂本可以修复这些东⻄,但我们以前已经改变了这些⾃动化的曲柄。你从沙盒到进步,然后你
⼀次添加⼀个更多的领域并推⼴。我认为在⾃然语⾔处理和语⾔处理的历史上,每个语⾔模型的
任务中的指令调整曾经就像⼀个语⾔模型,做⼀个任务。然后在指令调优⽂献中,你开始添加越
来越多的任务,任务在⼀起,它开始推⼴到每个任务,我们不知道我们在这条曲线上的位置。我
认为对于这个 RL 和可验证领域的推理,我们是早期的,但我们不知道点在哪⾥,你只是开始在
⾜够的领域上训练,然后噗,更多的领域开始⼯作,你已经跨越了泛化障碍。
- AI 与编程
Lex Frdiman: 那么,你对编程环境有什么看法?所以软件⼯程,这是我个⼈和我知道很多⼈与
⼈⼯智能互动最多的地⽅。
Dylan Patel: 现在的计算机科学学⽣也有很多恐惧和焦虑。但也有。那是哪⾥。这可能是⼈⼯
智能收⼊和⽣产⼒增⻓最多的领域。对的。不管是副驾驶还是光标等等。对的。这是。或者只是
标准的聊天 GPT。对的。就像很多。我不知道,我知道很少有程序员没有聊天 GPT,实际上他
们中的许多⼈都有 200 层,因为这就是它的好处。对的。我认为在那个世界⾥,我们已经看到了
斯⻙本奇。我不知道你是否看过⼀些斯坦福学⽣所做的基准测试。我不会说这真的很难,但我也
不会说这很容易。我认为这需要⼀个⾄少经历过⼏年计算机科学或⼏年编程的⼈来做好
Swebench。这些模型在⼀年内从 4% 上升到 60%。对的。他们明年要去哪⾥?它会更⾼,可能
不会是 100%,因为 9 是很难做到的。但我们总有⼀天会到达。然后我们需要更难的软件⼯程基
准测试等等。但⼈们现在认为它可以很容易地完成代码,它可以⽣成⼀些函数,我必须回顾⼀
下。棒极了。但实际上,我认为软件⼯程代理可以⽐任何其他代理更快、更快地完成,因为它是
⼀个可验证的领域。你总是可以单元,测试或编译,它有许多不同的区域,可以⼀次检查整个代
码库,这是没有⼯程师可以做到的。只有架构师才能真正考虑这些东⻄,真正资深的⼈,他们可
以定义东⻄,然后代理可以执⾏它。所以我认为软件⼯程成本将会疯狂下降。⼀个有趣的⽅⾯
是,当软件⼯程成本⾮常低时,你会得到⾮常不同的市场,对吧?所以在美国,你有所有这些平
台 SAAS 公司,对吗? Salesforce 等等,对吧?在中国,没有⼈使⽤平台 SAAS。每个⼈都建
⽴⾃⼰的堆栈。因为软件⼯程在中国要便宜得多,部分原因是 STEM 毕业⽣的数量,等等。所以
这样做通常更便宜。同时,中国很少采⽤代码 LLM,因为那⾥的⼯程师成本要低得多。但是,当
每个公司都可以合理地、真正廉价⽽快速地发明⾃⼰的业务时,会发⽣什么呢?你停⽌使⽤平台
SAAS,你开始构建定制的解决⽅案,你很快就会改变它们。现在,突然之间,你的业务也可能
变得更有效率了,因为你不需要处理像⼀些随机的平台 SAAS 公司的东⻄不能完美地⼯作,必须
调整⼯作流程或随机的业务⾃动化案例,⽽这些并不⼀定需要⼈⼯智能。这只是需要建⽴的逻
辑,没有⼈建⽴过。对的?所有这些事情都可以发⽣得更快。所以我认为软件,然后,然后另⼀
个领域就像⼯业化学。机械⼯程师不擅⻓编程,对吧?只是⼀般。他们的⼯具,⽐如半导体⼯程师,他们的⼯具都是 20 年前的。所有的⼯具都在 XP 上运⾏,包括 ASML。平版印刷⼯具在
Windows XP 上运⾏。对的?就像。很多分析都是在 Excel 中进⾏的,对吧?这就像伙计们⼀
样,你们可以⽤你们收集的所有数据向前移动 20 年,并做得更好。您只需要将软件⼯程的⼯程
技能交付给实际的领域专家⼯程师。所以我认为,我认为这是我超级看好⼈⼯智能创造价值的领
域。
Nathan Lambert: 总体情况是,我不认为它会是⼀个悬崖。我们谈到了⼀个很好的例⼦,当
Meta 添加故事时,增⻓是如何变化的。所以 Snapchat 呈指数增⻓。他们增加了故事。它停了。
软件⼯程师⼀直在上⾯和右边。⼈⼯智能要进来了。它可能只会是平的。并不是每个⼈都会失
业。这很难,因为供给修正得更慢。所以学⽣的数量仍在增⻓,这将在多年后得到纠正,就像⼀
年的延迟。但⼯作岗位的数量会发⽣变化,也许在 20 年、40 年后,⼯作岗位的数量会⼤幅下
降,但在这⼏年内,永远不会出现软件⼯程师没有⽤处的短暂时刻。
Lex Frdiman: 我认为程序员的本质以及程序员所做的⼯作也发⽣了变化,因为我认为你所说的
⼀切都需要有⼀个⼈参与。在这张图⽚中有⼀个⾮常重要的⼈,⽐如纠正代码。
Dylan Patel: 上下⽂⻓度。
Lex Frdiman: 是的。调试也像是通过阅读代码来调试,理解操纵系统,就像不,不,不,你没
抓住重点。添加更多的提示,就像是,添加⼈类设计完美的⾕歌按钮。
Nathan Lambert: ⾕歌以让⼈们设计完美的按钮⽽闻名,这就像⼈⼯智能如何做到这⼀点?就
像他们可以给你所有的想法。完美的按钮。
Lex Frdiman: 我的意思是,这就是你可以称之为品味的东⻄。⼈类有。⼈类可以做的⼀件事是
找出其他⼈类⽐⼈⼯智能系统更喜欢什么。这就是你加载的⾸选项。但最终⼈类是最⼤的偏好⽣
成器。这就是偏好的来源。
Nathan Lambert: ⼈类实际上⾮常擅⻓在两件事之间进⾏阅读或判断,⽽这⼜回到了 RLHF 和
偏好调整的核⼼,即很难为很多问题提供⼀个好的答案,但很容易看出哪⼀个更好。这就是我们
现在使⽤⼈类进⾏⼈⼯智能的⽅式,判断哪⼀个更好。这就是软件⼯程的样⼦。公关审查这⾥有
⼏个选项。这⾥有⼀些潜在的优点和缺点,他们将成为法官。
Lex Frdiman: 我认为我⾮常推荐的⼀件事是,⼈们从程序员开始,开始使⽤⼈⼯智能,并接受
⼈⼯智能系统的监督者的⻆⾊,就像⼈⼯智能系统的合作伙伴,⽽不是从零开始编写,或者根本
不学习编码,只是⽣成东⻄。因为我认为,作为⼀名程序员,实际上必须具备相当⾼的专业知
识,才能管理⽇益智能的系统。
Dylan Patel: 我认为是这样的,然后成为某领域的专家。
Lex Frdiman: 当然,是的。
Dylan Patel: 因为说真的,如果你去看看航空航天或半导体或化学⼯程,每个⼈都在使⽤⾮常
蹩脚的平台,⾮常旧的软件。数据科学的⼯作就是个笑话,对吧?在许多情况下,在许多情况
下,它是⾮常真实的。但这就像把⼈类能⼒的前沿带到你的领域。即使最前线是来⾃你的领域的
⼈⼯智能,你就像在最前线。对的?所以这就像,这就像你必须站在某件事的最前沿,然后利⽤
⼈⼯智能的涨潮来做其他事情。
Lex Frdiman: 哦,是的。在法律系统中,软件可以帮助实现⾃动化或数字化,在这⽅⾯,到处
都有很多低垂的果实。我是说,这就是为什么 Doge 令⼈兴奋的原因。我和⼀群执政官⼀起出去
玩,他们,我的意思是,政府就像是守旧派。这就像乞求软件的现代化,组织数据的现代化,所
有这些东⻄。我的意思是,在这种情况下,这是故意的,因为官僚机构保护权⼒中⼼等等。但软件打破了这些障碍。因此,它伤害了那些紧握权⼒的⼈,但最终造福了⼈类。所以有很多这样的
领域。有⼀件事我们还没有完全讲完,那就是开源。⾸先,恭喜你发布了⼀款新模型。
- 开源
Nathan Lambert: 是的,Tulu。我会解释什么是 Tulu。Tulu 是⼀种杂交骆驼。当你⽤巴克⾥亚
骆驼繁殖单峰骆驼时。早在 ChatGPT 之后的早期,就出现了⼀⼤批模型,⽐如⽺驼、⼩⽺驼等
等,它们都是以各种哺乳动物命名的。所以 Tulu 是⼀个有多年历史的品牌,这就是原因。我们
⼀直在使⽤开源代码进⾏岗位训练的前沿。这个版本的第⼀部分是在秋季发布的,我们建⽴了
Llama 的开放模型,开放重量模型,然后我们添加了完全开放的代码或完全开放的数据。有⼀个
流⾏的基准是聊天机器⼈竞技场,这通常是评估这些聊天模型的指标,它是⼈类。⽐较来⾃不同
组织的随机模型。如果你看⼀下 11 ⽉或 12 ⽉的排⾏榜,在前 60 个模型中,从 10 个到 20 个组
织中,没有⼀个组织有开放代码或数据,仅⽤于后训练。其中,甚⾄更少或没有预训练数据和代
码可⽤。但在这个时候,岗位训练要容易得多。它仍然很便宜,你可以这样做。问题是,在⼈们
可以访问所有代码和数据的情况下,我们能把这个数字推到多⾼?这就是这个项⽬的动机。我们
从 Llama 身上吸取教训。英伟达有⼀个 Nematron 模型,其中他们的后期训练配⽅是相当开放
的,有⼀些数据和⼀篇论⽂。它把所有这些放在⼀起,试图创造⼀个配⽅,让⼈们可以根据⾃⼰
的领域对 GPT4 等模型进⾏微调。
Lex Frdiman: 所以要明确的是,在 Tulu 的情况下,也许你也可以谈论阿尔玛。但在图尔的情
况下,你要把 Llama 3,4,5B 带给卢。
Nathan Lambert: 这是⼀系列岗位训练的⻝谱。所以我们多年来做了很多模型。
Lex Frdiman: 所以你把所有东⻄都开源了?
Nathan Lambert: 是的,如果你从⼀个开放的基于重量的模型开始,整个模型在技术上是开源的,因为你不知道骆驼在⾥⾯放了什么,这就是为什么我们有⼀个单独的东⻄。但它只是获得了
⼈们可以放⼤和定制的管道的⼀部分。我知道,我从创业公司和企业那⾥听说,好吧,我可以参
加这个职位的训练,并尝试将它应⽤到我的领域。我们经常谈论验证器。我们使⽤这个想法,即
带有可验证奖励的强化学习。RLVR 类似于 RLHF。我们今天把它应⽤到数学和模型中,就像我
们把它应⽤到去年的 Llama 405B 基础模型中⼀样,我们还有其他的东⻄,我们有我们的指令调
整和偏好调整。但是数学的东⻄很有趣,它更容易改进这个数学基准。所有的资本模型都有⼀个
基准并购数学。当基准名称是您正在评估的区域时,使⽤严格的名称。我们是研究⼈员,不是品
牌战略家。这也是 DeepSeek 论⽂中谈到的,就像在这个更⼤的模型中,通过这种 RL 训练更容
易获得强⼤的能⼒。然后他们把它从⼤模型提取到⼩模型,我们今天发布的这个模型,我们看到
了同样的事情。我们在 AI2,我们没有⼤量计算机。我们不能⼀直训练 405B 模型。所以我们只
是做了⼏次跑步,它们往往会起作⽤。它只是表明⼈们在这些事情上有很⼤的发挥空间。
Dylan Patel: 他们粉碎了 Llama 的实际释放,对吗?他们⽐它好多了。
Nathan Lambert: 是的。所以我们的评估数字,我的意思是,我们有额外的⽉份,但我们的评
估数字⽐他们发布的 Llama Instruct 模型要好得多。
Lex Frdiman: 然后你也说⽐ DeepSeek V3 更好。
Nathan Lambert: 是的。在我们的评估基准测试中,DeepSeek V3 ⾮常相似。我们有⼀个安全
基准来理解,如果它会说有害的事情和类似的事情,这是最⼤的⽅式,它仍然是。
Dylan Patel: 这就像是多个基准的合并。你什么意思?
Nathan Lambert: 是的。所以我们有 10 个评估。这是训练后的标准做法,你可以选择你关⼼
的评估。在学术和较⼩的实验室,你会有较少的评估。在公司⾥,你会有⼀个你真正关⼼的领
域。在前沿实验室,你会有⼏⼗到⼆⼗个甚⾄可能是 100 个特定事物的评估。所以我们选择了⼀
套有代表性的东⻄,就像聊天,精确的指令跟随,也就是回应。只有在表情符号中,模型才会遵
循奇怪的东⻄,⽐如数学代码。你创建了⼀个这样的套件。因此,安全将是这类套件中的 10 个
之⼀,在这类套件中,更⼴泛的⼈⼯智能社区关⼼什么?例如,与 DeepSeek 相⽐,我们的模型
的平均评估是 80,包括安全和类似的。如果没有安全性,DeepSeq 的平均得分将达到 79%。他
们的安全评分会带来它。
Dylan Patel: 下降到喜欢,哦,所以你击败他们甚⾄忽视安全。
Nathan Lambert: 是的。所以这是内部的事情,我不想只通过你如何塑造评估基准来赢得胜
利。所以如果有这样的东⻄,⼈们可能会也可能不会关⼼他们模型中的安全性。安全可以顺流⽽
下。安全可以是当你为 API 托管模型时。⽐如,安全是在 AI 应⽤程序的⼀系列位置中解决的。
所以这就像如果你想说你有最好的⻝谱,你不能只是把它关在这些东⻄上,有些⼈可能不想要。
这就像是进步的时代。如果我们能晚些时候发布⼀个模型,我们就会受益,我们有更多的时间来
学习新的技术,⽐如 RL 技术。我们在秋天就开始了。它现在在推理模型中⾮常流⾏。开源后训
练的下⼀步是扩⼤验证器,扩⼤数据,复制 DeepSeq 的⼀些结果。很棒的是,我们有⼀张纸可
以画,这让它变得容易多了。这就是在⼈⼯智能的学术和封闭前沿研究中正在发⽣的事情。
Lex Frdiman: 既然你在推动开源,你认为它的未来是什么?你认为 DeepSeek 实际上改变了
⼀些事情,因为它是开源或开放的,或者正在推动开源运动向开放的⽅向发展?
Nathan Lambert: 这可以追溯到许可证的讨论。因此,使⽤友好许可证的 Deepseak R1 是⼀
次重⼤重置。因此,这就像我们第⼀次有了⼀个真正清晰的边界模型,它是开放的权重,并且具
有商业友好的许可证,对下游⽤例、合成数据提取等没有任何限制。在⼈⼯智能的历史上,从来没有出现过这种情况。在过去的⼏年⾥,⾃从 ChatGPT 以来,已经有⼀些模型脱离了前沿,或
者有⼀些奇怪的许可证,你不能真正使⽤它们。
Dylan Patel: 那么,除了五家公司外,Meta 的许可证是不是⼏乎是允许的?
Nathan Lambert: 所以这就涉及到什么是开源⼈⼯智能。在 Llama 许可证中也有⽤例限制,即
您不能将其⽤于特定的事情。所以如果你有开源软件的背景,你会说那不是开源。
Dylan Patel: 那些是什么样的东⻄?
Dylan Patel: 就像,他们就像在这⼀点上,我不能把他们从我的头上拉下来。
Lex Frdiman: 但它会像竞争对⼿⼀样。
Nathan Lambert: 它曾经是军事⽤途之⼀,他们为了规模⽽删除了它。它就像 CSAM,就像虐
待⼉童的材料。就像这是那⾥禁⽌的事情⼀样。但从开源背景来看,这⾜以说明它不是开源许可
证。此外,骆驼许可证有⼀个可怕的东⻄,如果你把它和骆驼模型接触,你必须给你的模型命名
为骆驼。所以这就像是品牌的事情。因此,如果⼀家公司在技术上使⽤ Llama ,许可证上说他们
应该在应⽤程序的底部使⽤ Llama 构建。从营销的⻆度来看,这很伤⼈。作为⼀名研究员,我可
以接受。我想,哦,这很好。这次发布的所有材料上都写着 “Llama 冲刺”。但这就是为什么我们
需要真正开放的模型,即我们不知道 DeepSeek R1 的数据。
Dylan Patel: 所以你的意思是我不能做⼀个廉价的 Llama 复制品,假装它是我的,但我可以⽤
中国的模式来做这个?
Nathan Lambert: 是的,当然,这就是我要说的。这就是为什么我们想要整个开放语⾔模型的
原因。奥尔莫的事情是试图保持模型,其中⼀切都是开放的,数据尽可能接近边界。所以我们的
计算受到限制,我们的⼈员受到限制,我们依赖于从像约翰 · 舒尔曼这样的⼈那⾥获得洞察⼒,
他告诉我们要在输出上做 RL。我们可以实现这些⼤的⻜跃,但需要很⻓时间才能推动开源的前
沿。⽽且,从根本上说,我想说的是,这是因为开源⼈⼯智能没有与开源软件相同的反馈回路。
我们还讨论了⽤于安全的开源软件。这只是因为你曾经建⽴了⼀些东⻄,如果你进⼊⼀家新公
司,你可以重复使⽤它,有这么多的好处。但是如果你开源⼀个语⾔模型,你有这些数据,你有
这些训练代码,要有⼈来构建和改进并不容易,因为你需要在计算上花很多钱,你需要有 X 专业
知识。因此,在开源⼈⼯智能的反馈循环出现之前,它似乎主要是⼀种意识形态使命。像⻢克 ·
扎克伯格这样的⼈就像这样,美国需要这个。我同意他的观点。但在意识形态动机很⾼的时候,
我们需要利⽤并建⽴这个⽣态系统。查看语⾔模型数据有什么好处?关于这⼀点并没有太多。我
们将很快推出⼀个演示,您可以在其中查看 OLMO 模型和查询,并查看与其相似的预训练数
据,这在法律上是有⻛险和复杂的。但这就像,看到⼈⼯智能训练的数据意味着什么?它很难解
析,它是兆兆字节的⽂件。
Dylan Patel: 这就像,我不知道我是什么。
Dylan Patel: 去那⾥找。但如果⼈们希望开源⼈⼯智能在经济上有⽤,这就是我们作为⼀个⽣
态系统所需要做的。
- Stargate (OpenAI 星际之⻔)
Lex Frdiman: 我们并没有真正谈论星际之⻔。我很想听听你对新政府、特朗普政府、美国⽅⾯
所做的⼀切以及⽀持⼈⼯智能基础设施和不同⼈⼯智能公司的努⼒的看法。你觉得星际之⻔怎么
样?我们该怎么看待星际之⻔?萨姆拿到钱了吗?
Dylan Patel: 是的。所以我认为星际之⻔是⼀个不透明的东⻄。它肯定没有 5000 亿美元,甚⾄没有 1000 亿美元。对的。所以他们宣布的是这个 5000 亿美元的数字。拉⾥ · 埃⾥森、萨姆 ·
奥特曼和特朗普说了这句话,他们感谢特朗普,这句话被使⽤了。特朗普确实采取了⼀些⾏政措
施,⽐如,确实显著提⾼了更快建设的能⼒。你知道,他所做的⾏政⾏为之⼀是在联邦⼟地上,
你基本上可以在电⼒中建⽴数据中⼼,你知道,就像,就像那样。然后许可程序基本上就没有
了,或者你在事后申请。所以,就像,其中⼀个。⼜⼀次,就像,我之前有过精神分裂。⼜⼀次
精神分裂。如果你曾经去过普雷⻄迪奥和旧⾦⼭,美丽的地区,如果你愿意,你可以在那⾥的数
据中⼼建⼀个发电⼚,因为那⾥是联邦⼟地。它曾经是⼀个军事基地。但是,你知道,很明显,
这会让⼈们⽣⽓。你知道,这是⼀个很好的。不管怎样,特朗普。特朗普让这件事变得容易多
了。对的。⼀般来说,德克萨斯州拥有唯⼀不受监管的电⽹。在国内也是如此。
Lex Frdiman: 我们⾛吧,德克萨斯。
Dylan Patel: 所以,你知道,因此,就像 ERCOT 也能让⼈们更快地建造。此外,联邦法规即
将出台。所以星际之⻔被预⾔了。这就是整场演出发⽣的原因。现在,我不知道他们是如何得出
5000 亿美元这个数字的。他们是如何得出 1000 亿美元这个数字的,这在某种程度上是有道理
的。对的。实际上这⾥有⼀张很好的桌⼦,我想在我的星际之⻔作品中展示⼀下。这是最近的⼀
次。是啊。所以⽆论如何,星际之⻔,你知道,基本上是正确的。就像,有。那⾥有⼀张关于成
本的桌⼦。你已经通过了。是那个。所以这张表解释了发⽣了什么。对的。星⻔在德克萨斯州的
阿⽐林。第⼀个⼀千亿美元。在⼤约 1.8 千兆瓦的电⼒消耗中,该站点的电⼒为 2.2 千兆瓦。对
的。每个 GPU。他们⼤概有。在星际之⻔出现之前,甲⻣⽂已经在建造它的第⼀部分,需要说
明的是,他们已经建造了⼀年。事实上,他们想把它租给埃隆。对的。但埃隆说,这太慢了。我
需要快点。然后他去做了他在孟菲斯的事。所以 OpenAI 能够通过这个叫做星际之⻔的奇怪的合
资企业来获得它。他们最初与 Just Oracle 就该集群的第⼀部分签署了协议。这个集群的第⼀部
分⼤约是 50 亿到 60 亿美元的服务器⽀出,对吗?此外,还有 10 亿美元左右的数据中⼼⽀出。
但是,然后,然后同样地,如果你⽤未来两代英伟达的芯⽚ GB200,GB300,VR200 填满整个
1.8 千兆瓦,并且你完全填满它,这最终⼤约是 500 亿美元的服务器成本,对吗?再加上数据中
⼼成本,再加上维护成本,再加上运营成本,再加上所有这些东⻄。这就是 OpenAI 宣布获得
1000 亿美元的原因,对吧?因为他们谈到 1000 亿美元是第⼀阶段。这是阿⽐林,德克萨斯数据
中⼼, 是吧?1000 亿美元的总拥有成本,报价,报价。对的?所以这不是资本⽀出,也不是投
资,⽽是 1000 亿美元的总拥有成本。然后会有未来的阶段。顺便说⼀下,他们正在寻找其他⽐
这个 2.2 千兆瓦更⼤的地⽅,在德克萨斯州和其他地⽅。所以你知道,他们并没有完全忽视这⼀
点。但是,他们说第⼀阶段需要 1000 亿美元,我认为这是会发⽣的。他们甚⾄没有钱买那个。
此外,这不是 1000 亿美元,⽽是 500 亿美元的⽀出。对的?然后像 500 亿美元的运营成本,电
⼒,等等,租⾦定价,等等,因为他们租⽤它。OpenAI 从 Stargate 合资公司租⽤ GPU。对
的?对的。他们到底有多少钱?对的。软银。软银要投资了。甲⻣⽂要投资了。OpenAI 要投资
了。OpenAI 即将获得 190 亿美元。每个⼈都知道他们在上⼀轮中只得到了 60 亿美元和 40 亿美
元的债务。所以,有消息说软银可能会向 OpenAI 投资 250 亿美元。对的?所以那是,那是,那
是它的⼀部分,对吗?所以 190 亿美元可以从那⾥来。所以 OpenAI 根本没有钱,对吧?需要说
明的是,墨⽔在任何东⻄上都不会变⼲。OpenAI 在这 500 亿美元中有 0 美元,他们在法律上有
义务将 190 亿美元的资本⽀出投⼊到合资企业中。剩下的钱他们将通过租⽤合资公司的 GPU 来
⽀付。然后是,然后是甲⻣⽂。甲⻣⽂有很多钱。他们正在完全建造第⼀部分。他们在为⾃⼰花
钱,对,这 60 亿美元的资本⽀出,100 亿美元的总拥有成本。但是他们,他们要做第⼀部分。他们为此付出了代价,对吧?⾄于剩下的部分,我不知道拉⾥想花多少钱。对的。在任何时候他
都可以退出,对吧?⼜是这样, 完全是⾃愿的。所以在任何时候,这上⾯都没有签名。对的。但
他可能会贡献数百亿美元。对的。需要说明的是,他拿到了钱,甲⻣⽂拿到了钱。还有像
MGX,这是阿联酋基⾦,从技术上讲,它有 1.5 万亿美元⽤于投资⼈⼯智能。但是,我不知道那
笔钱有多真实。就像,尽管没有公司签约,软银也没有 250 亿美元的现⾦。他们不得不出售他们
在 ARM 的股份,你知道,这是 CPU 的领导者,他们,他们⾸次公开募股。这显然是他们⼀直
想做的。他们只是不知道他们将在哪⾥重新部署资本。卖掉 ARM 的股份很有道理。所以他们可
以把它卖掉,如果他们愿意的话,他们可以投资这个,如果他们愿意的话,他们可以投资
OpenAI。就像资⾦担保⼀样,第⼀个 10 万 GB200 集群就像,可以资助,被资助。在那之后的
⼀切都悬⽽未决。钱来了。我相信钱会来的。我个⼈认为。
Lex Frdiman: 这是⼀种信念,好吧。
Dylan Patel: 这是⼀种信念,他们将发布更好的模型,并能够筹集更多资⾦。
Lex Frdiman: 是的,没错。
Dylan Patel: 但是,事实是,埃隆是对的。有钱是不存在的。对的。
Lex Frdiman: 这和美国政府有什么关系?特朗普和这⼀切有什么关系?他只是个炒作的⼈。
Dylan Patel: 特朗普是。他正在减少监管,这样他们就可以更快地建造它。对的。他允许他们
这么做。对的。你知道,因为这⽅⾯的任何投资都会涉及到反垄断的问题。对的?就像,很明显
他会,他会允许他们这么做。他将使法规能够真正允许它的建造。不过,我不相信有任何美国政
府的美元被花在这上⾯。
Lex Frdiman: 是的。所以我认为他也在创造⼀种普遍的氛围,这是监管将会下降,这是建设的
时代。所以,如果你是⼀个建设者,你想创造的东⻄,你想推出的东⻄,这是时间去做。
Dylan Patel: 你看,我们的数据中有这个 1.8 千兆瓦的数据中⼼已经有⼀年了,我们⼀直在把
它发送给我们所有的客户,包括许多正在建设多个千兆瓦的公司。但这就像在⼀个⽔平上,也许
⾼管们不太喜欢看到 5000 亿美元,1000 亿美元,然后每个⼈都在问他们,所以这可能会刺激另
⼀场更快的军备竞赛。对的。因为军备竞赛已经开始了。但就像这样,这就像特朗普在电视上谈
论的 1005-0000-00000 美元的数字,就像它可以刺激军备竞赛变得更快,更多的投资者涌⼊等
等,等等。所以我认为,我认为你在这个意义上是正确的,OpenAI 或特朗普有点像拥护⼈们会
建造更多,他的⾏动会让⼈们建造更多。
- AI 的未来
Lex Frdiman: 你对即将到来的这⼏年感到兴奋的是什么?在集群建设⽅⾯,在⼈⼯智能的突破
⽅⾯,⽐如在未来⼏年,两年,三年,四年⾥你可以想象最好的未来。那看起来像什么?只是它
可能是⾮常具体的技术问题,⽐如岗位训练的突破。也可能只是⼤号的。
Dylan Patel: 是的,我的意思是它令⼈印象深刻。
Lex Frdiman: 集群。
Dylan Patel: 我真的,我真的喜欢跟踪供应链,喜欢谁参与了什么。我真的知道。看到这些数
字,成本,谁在建设什么能⼒,帮助他们计算出他们应该建设多少能⼒,赢得交易,战略性的东
⻄,这真的很有趣。那真的很酷。我认为在技术上,⽹络⽅⾯有很多东⻄让我对光学和电⼦学感
到兴奋。对的。就像越来越接近,⽆论是 CO 封装光学还是某种类似的新形式的开关。
Lex Frdiman: 这是集群内部的。Dylan Patel: 集群,是的。还有多数据中⼼训练。对的。就像⼈们在这些数据中⼼之间铺设了
这么多光纤,并⽤这么多不同的东⻄照亮它,你知道,有这么多的带宽,在这⼀端发⽣了很多有
趣的事情。对的。⾃从 5G 以来,电信⼀直很⽆聊,现在它真的很令⼈兴奋。再说⼀次,你能教
育我⼀下吗?
Lex Frdiman: 关于事物的速度?因此,数据中⼼之间的内存速度、互连速度和光纤速度是否存
在数量级差异?我们能不能在某⼀点上汇聚到⼀个地⽅,让⼀切都感觉像是⼀台电脑?
Dylan Patel: 不,我认为这是不可能的。好吧。编程只会变得更难,⽽不是更容易。它只会变
得更困难、更复杂、层次更多,对吗?⼈们喜欢拥有的普遍形象就像这种记忆的层次结构。所以
在芯⽚上是⾮常接近的,在芯⽚内定位,对吧?你有登记簿,对吧?且它们在⼀些计算元件之间
共享。然后,您将拥有在更多计算元素之间共享的缓存。然后你有内存,对,像 HBM 或
DRAM,像 DDR 内存或其他什么,这是在整个芯⽚之间共享的。然后你可以在许多芯⽚之间共
享内存池,对吧。然后是存储。你⼀直在⾛神。对,对。跨数据中⼼的访问延迟、跨芯⽚内的数
据中⼼的访问延迟是不同的。所以就像你显然总是,你总是会有不同的编程范例。这不是⼀件容
易的编程⼯作。这东⻄会很难。也许⼈⼯智能能帮上忙,对吧?你知道,通过编程。但是,思考
这个问题的⽅式是,就像你在任务中添加的元素越多,你就不会得到强⼤的扩展。如果我将芯⽚
数量增加⼀倍,性能也不会提⾼⼀倍。这就是计算的现实,因为效率低下,⽽且有很多有趣的⼯
作正在进⾏,以使其更加线性,⽆论是使芯⽚更紧密地连接在⼀起,还是很酷的编程模型,或者
你可以在模型端做的很酷的算法。DeepSeq 做了⼀些⾮常酷的创新,因为它们在互连⽅⾯受到
限制,但它们仍然需要并⾏化。对的。就像各种各样的,你知道,每个⼈都在做⼀些事情。⾕歌
有⼀⼤堆⼯作,每个⼈都有⼀⼤堆关于这个的⼯作。那东⻄超级刺激。在模型、⼯作量和创新⽅
⾯,对吧? 硬件固态 Transformer 很有趣,对吧?对于电源⽅⾯,电池上有各种各样的东⻄,还
有各种各样的东⻄,你知道,我认为,我认为当你看,如果你看计算堆栈的每⼀层,对,⽆论是
从光刻和蚀刻⼀直到制造,到光学,到⽹络,到电源,到 Transformer,到冷却,到⽹络,你只
需要在堆栈中不断上升。即使是数据中⼼的空调也在不断创新。铜缆正在创新。你不会想到它,
但铜电缆。在如何包装它们的密度⽅⾯有⼀些创新。它是堆栈的所有这些层,⼀直到模型。⼈类
的进步速度是前所未有的。
Lex Frdiman: 我只是想象你坐在⼀个到处都是屏幕的地⽅,只是监控供应链,所有这些集群就
像你收集的所有信息⼀样,我是说你,有⼀个⼤的。
Dylan Patel: 团队,有⼀个很⼤的团队。
Lex Frdiman: 你在半分析⽅⾯做了令⼈难以置信的⼯作。我的意思是,它只是让你在数字世界
中把握⼈类⽂明的脉搏。这很酷,就像只是看着。感觉到了吗?
Dylan Patel: 是的,谢谢。
Lex Frdiman: 我想感觉,感觉我们所有⼈都喜欢做狗屎,史诗般的狗屎。
Dylan Patel: 感受 AGI。
Lex Frdiman: 我的意思是从模因到现实。Nathan,有没有你期待的潜在突破?
Nathan Lambert: 听着迪伦美妙的回应,我花了⼀段时间来思考这个问题。
Dylan Patel: 他不听我的话,他太笨了。
Nathan Lambert: 我知道,不,我知道这是迟早的事。这就像现实训练模型是⾮常有趣的,因
为有这么多低垂的果实。让我的⼯作变得有趣的是,我训练模特,我写关于模特的分析,这很有
趣,因为显然还有更多的进步。我在⼀个可以分享东⻄的地⽅做这件事的真正动机是。我不相信那些说 “相信我,兄弟,我们会让⼈⼯智能变得更好” 的⼈。就像是我们才是。这就像我们要做这
件事,你可以信任我们,我们将拥有所有的⼈⼯智能,这就像我希望未来有更多的⼈对⼈⼯智能
有发⾔权,并能理解它,这就不那么有趣了,这不是⼀件积极的事情,这真的很有趣。就像训练
模型很有趣,把⼈带进来也很有趣,但这真的很像⼈⼯智能,如果它要成为我⼀⽣中最强⼤的技
术,就像我们需要很多⼈参与制作。
Lex Frdiman: 让它变得开放,让它变得尽可能开放。是啊。
Nathan Lambert: 在我过去⼏年的阅读中,更多的开放将有助于⼈⼯智能⽣态系统,让更多的
⼈了解正在发⽣的事情。⽽不是从⾮⼈⼯智能领域到政府到⼀切领域的研究⼈员。这并不意味着
开放永远是答案。我认为到那时,它将重新评估⼈⼯智能⾯临的最⼤问题是什么,并从⼀个不同
的⻆度来看待我们正在进⾏的疯狂之旅。
Lex Frdiman: 对我来说,即使是从⽤户体验来看,任何时候你都会有像 “啊哈” 这样的冷漠时
刻,就像魔法⼀样,就像看到推理,思维的链条,就像有⼀些东⻄从根本上是美丽的。这是给我
们⾃⼰放⼀⾯镜⼦,看起来就像哦,妈的。正如这些公司⽼⽣常谈的⽬标⼀样,它正在解决智能
问题。你就会明⽩为什么我们⼈类是特别的。我们内⼼的智慧是特别的。现在也是为什么我们是
特别的,因为我们似乎是有意识的,⽽⼈⼯智能系统现在不是。我们要解决,我们要探索这个谜
团。所以,去探索这些问题真的很酷,我不认为我,我从来没有想象过会有可能回来,所以只是
兴奋地看着深蓝⼤卡斯帕罗夫。就像我从来没有想过这种⼈⼯智能在我的有⽣之年是可能的。这
就像是真的感觉像⼈⼯智能。这太不可思议了。
Nathan Lambert: 我从学习驾驶纤⽑四旋翼⻜机的⼈⼯智能开始。就像学习⻜⾏⼀样。就像它
学会了⻜起来⼀样。它会撞到天花板,然后停下来抓住它。这就像,好吧,与现在发⽣的事情相
⽐,这真的很愚蠢。
Lex Frdiman: 现在你可以⽤⾃然语⾔告诉它学习⻜⾏。它将⽣成所需的控制算法。
Nathan Lambert: 可能有低⽔平的拦截者,就像我们不得不做⼀些奇怪的事情⼀样。
Lex Frdiman: 但你可以回到我们的机器⼈对话。是啊。当你必须在真实的物理世界中互动时,
这很难。是什么让你对⼈类⽂明的未来充满希望?展望未来 10 年,100 年。千年。你认为我们
能坚持多久?你认为我们有⼀千年?
Nathan Lambert: ⼈类肯定会在⼀千年内出现。我想可能会有⾮常糟糕的事情发⽣。⼈类会少
很多,但⼈类很擅⻓⽣存。有很多事情都是真的。我不认为他们是必要的。我们擅⻓⻛险的⻓期
信⽤分配,但当⻛险变得迫在眉睫时,我们倾向于解决问题。由于这个原因,像 AGI 这样的东⻄
有物理限制,递归改进可以杀死我们所有⼈。我是因为身体的原因,也是因为⼈类以前是如何解
决问题的。我不太担⼼⼈⼯智能的接管。国际上还有其他令⼈担忧的事情,但这只是⼈类基本的
善良,并试图放⼤这⼀点。我认为我们正处于⼀个脆弱的时期,我的意思是,如果你把⼈类作为
⼀个整体来看,有时事情会倒退,有时事情根本不会发⽣,⽽我们现在正处于⼀个⾮常积极的轨
道上。
Lex Frdiman: 是的,似乎有进步,但就像权⼒⼀样,有⼈类痛苦的尖峰,我们想尽量减少尖峰
的数量。
Dylan Patel: ⼀般来说,⼈类遭受的痛苦会少很多。对的。我对此⾮常乐观。随着⼈⼯智能变
得越来越普遍和强⼤,那些控制它的⼈可以做越来越多的事情,我确实担⼼像技术法⻄斯主义之
类的东⻄会出现。也许它不会杀死我们所有⼈,但在某⼀点上,每⼀个⾮常强⼤的⼈类都会想要
⼀个脑机接⼝,这样他们就可以与 AGI 互动,并以更多的⽅式与其所有的优势融合,你知道,有点像。它的能⼒或那个⼈的能⼒可以⽐其他任何⼈更好地利⽤这些能⼒,因此,你知道,它不会
是⼀个⼈统治所有⼈,但它会是,你知道,我担⼼的是,它会像少数⼈⼀样,你知道,你知道,
数百,数千,数万,也许数百万⼈统治剩下的⼈。对的。以及它周围的经济。对的。我认为,这
就像,可能更令⼈担忧的事情是⼈类和机器的融合。这使个⼈能够对世界产⽣更⼤的影响,这种
影响既可以是积极的,也可以是消极的。对的。⼀般来说,⼈类对世界有积极的影响,⾄少在社
会上是这样。但个⼈有可能产⽣这种负⾯影响,⽽ AGI,⾄少我认为实验室对它的定义是,它不
是,不是⼀种失控的有意识的东⻄,⽽是⼀种可以完成很多任务的东⻄,真正有效地放⼤了造成
极端破坏的⼈的能⼒。但在⼤多数情况下,我认为它将被⽤于追求利润的动机,这将减少,这将
增加事物的丰富和供应,从⽽减少痛苦。对的?
Nathan Lambert: 这就是我们的⽬标。
Lex Frdiman: 在时间线上滚动,只是滚动,停滞。
Nathan Lambert: 滚动掌握着世界的现状。
Dylan Patel: 这是⼀个积极的结果,对吗?就像如果我有⻝物管,我在滚动,我很⾼兴。
Lex Frdiman: 在向宇宙扩张的过程中,这是⼀个积极的结果。好吧,这是⼀个充满乐趣的时
刻,感谢你们推动⼈类可能的前沿,感谢你们今天的发⾔。这很有趣。
Nathan Lambert: 谢谢你邀请我们。
Dylan Patel: 谢谢你邀请我们。
Lex Frdiman: 感谢您收听与 Dylan Patel 和 Nathan Lambert 的对话,以⽀持本播客。请在描
述中查看我们的赞助商。现在让我把理查德 · 费曼的⼀些话留给你们。对于⼀项成功的技术来
说,现实必须优先于公共关系,因为⾃然不会被愚弄。感谢您的聆听,希望下次再⻅。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢