
【编者按】我们究竟距离真正的通用人工智能(AGI)还有多远?日前,斯坦福大学计算机科学系和电子工程系兼职教授、DeepLearning.AI 创始人、Coursera 联合创始人及董事长吴恩达,在这期访谈中深入探讨了人工智能(AI)行业的现状与未来。
在这场对话中,吴恩达提出 2026 年无法实现 AGI 的现实,更将目光投向了更具落地意义的智能体工作流,提出了一套全新的、基于实际生产力的“图灵 AGI 测试”,衡量 AI 是否能像专业人士一样,独立完成为期数天且具有实际经济价值的任务。
他还提醒我们,变革不在于预测 AI 何时完全取代人类,但使用 AI 的人将取代不使用 AI 的人。
核心观点如下:
AGI 已失去明确的定义,目前更多被当做营销术语使用,甚至误导了公众。
AGI 在明确定义下,2026 年不可能实现,真正实现 AGI 可能还需要几十年甚至更久。
智能体工作流是重点,相比于追求通用智能,通过构建可靠的 AI 智能体来完成法律、医疗、客服等具体领域的任务更具现实意义。
Scaling 单纯依靠获取数据和增大模型越来越难,必须在 Scaling 的基础上注入其他类型的知识。
AI 在持续学习和记忆系统方面与人类仍有巨大差距,目前尚未找到解决这些问题的正确路径。
开源是防止少数企业形成 AI 寡头垄断的关键,中国在开源领域领先,而美国在专有模型方面具有优势。
AI 不会取代所有人,但使用 AI 的人会取代不使用 AI 的人。翻译、配音和呼叫中心等高度自动化的岗位受影响风险最大。
目前大学教育节奏缓慢,需转变为培养懂得利用 AI 解决实际问题的人才。
AI 带来的净收益远大于损害,加速 AI 发展能够拯救生命、缓解贫困。

Matt Kawecki :2026 年,我们会实现 AGI 这个目标吗?
吴恩达:对于任何合理的 AGI 定义而言,我认为答案都是否定的。我们不会在2026 年实现 AGI。如果有人声称能够在 2026 年实现 AGI,那很可能是因为他们大幅降低了 AGI 的门槛。
那么,您如何解释和定义AGI?
我最熟悉的 AGI 定义是:能够完成人类可以完成的任何智力任务的 AI。例如,人类只需几十个小时就能学会驾驶卡车穿越森林,虽然我从未做过,但如果我训练几个小时,我或许可以做到;人类也可以学会接听客服中心的电话,并回答与某些业务相关的问题。凡是一个人可以学会做的脑力劳动(而非体力劳动)任务,都属于这个范畴。
然而,我们在通过构建定制 AI 工作流来完成其中一些任务时,仍然需要做大量工作。事实证明,这些工作流确实很有价值,但需要工程师花费大量时间来搭建,而这并不是公众通常理解的 AGI。尽管我非常希望计算机有一天能在各个方面都与人类一样智能,但我认为我们距离那一天还非常遥远。
您提出了一个新版本的图灵测试,能解释一下您的提议吗?
我对此感到很兴奋。这是因为,由于围绕 AGI 的炒作,AGI 已经变成了一个营销术语,而不是具有精确技术含义的概念。而它作为营销术语的使用方式,实际上误导了很多人。但既然人们都想要 AGI、对它感到兴奋,我们为什么不设计一个测试来衡量我们是否真的实现 AGI 了?
在最初的图灵测试中,人类通过文字与 AI 或人类来回交流,测试 AI 能否欺骗他们,让其无法判断对话对象是 AI 还是人类。这是发生在 1950 年的伟大发明,但它并不是以我们今天理解的方式来衡量智能的。
我的想法是构建“图灵 AGI 测试”:让一位人类法官设计一个为期数天的任务体验,可以包括通过电脑进行的入职培训,测试对象可以是AI或人类,都能使用电脑和常规软件,比如网页浏览器、Zoom 或其他类型的软件。如果在这个为期多天的体验中,AI能够像一位技术熟练的专业人类一样完成有实际经济价值的工作任务,那么在我看来,这才是对AGI更合理的定义。
我提出这个建议的原因是:这实际上更贴近广大公众对 AGI 的理解。当人们认为 AGI 可能已经到来时,他们会想,“哇,AI 将能够做我们人类的工作”。如果AI能够像远程工作者一样工作多天并高效完成任务,那将非常有价值,而且这比某些企业出于一些目的而推广的替代标准,更接近人们心目中真正的 AGI。
我记得我曾采访诺贝尔奖得主、数学家罗杰·彭罗斯爵士时,他提到数学是一个封闭系统,因此 AI 可以像玩游戏一样玩转它。您不担心有效的 AI 测试根本不存在吗?
关于人工智能测试或基准测试,其中一个挑战在于:当有人预先固定一个测试集,你就只需要在衡量 AI 的某个特定维度。这就是为什么很难避免很多 AI 在 SWE-bench、GPQA 等各种标准基准测试上进行优化,即使他们不是直接这样做。最终结果是,AI 是一种参差不齐的智能形式,在某些方面很出色,在另一些方面却很糟糕。但人们认为 AGI 是能够完成人类能做的任何知识任务的人工智能,应该覆盖人类能够完成的所有知识任务。
所以,对我来说,固定测试集类型的基准测试,与由人类评判进行的实时调查之间,存在很大的区别。人类法官可以实时探测 AI 的优势和弱点所在,以及 AI 要达到大多数人所理解的那种 AGI 还需要付出怎样的努力。这意味着应该由人类法官来评判,且无法探测到 AI 在本质上比人类弱的地方,比如我们希望 AI 从事的那些具有经济价值的工作任务。
所以,基准测试真的能衡量真实能力吗?有时候基准测试达到了 90%,但用户却说感觉比以前更笨了。
我认为基准测试确实在衡量真实存在的东西,但范围非常狭窄,只是我们想要衡量的那类事物的一小部分。很多基准测试的一个弱点在于,我们更擅长设计客观的基准测试,比如数学题,答案非对即错;或者像事实性问题,今年奥运会 200 米自由泳谁获得了冠军之类的。这类问题有客观的对错答案,很多基准都建立在此基础上,衡量 AI 给出对错答案的能力,非常黑白分明。
但生活中有很多事情,很难设计出一个完全客观的“最佳答案”。就像我们现在进行的这场对话,我该说什么才是“唯一正确的”?我不知道,但我可能有些话说得更好,有些话说得更差。平均而言,我们在设计基准测试来衡量这些更主观的事情、或者存在好坏程度差异的事情方面,一直做得不太好。很难编写一个测试集,明确说这是唯一正确答案,这是唯一错误答案。
并不是说我们没有尝试,但我觉得我们现有的很多基准测试并不能很好地捕捉这些东西。现实是,人类的很多工作都是如此,如果你让我写一份研究报告,没有唯一正确的报告,有的只是质量高低的差异。我们编写基准测试来捕捉这种“灰色地带”的能力,远弱于我们编写基准测试来判断“它是否正确解答了这道数学题”或“它写的代码能否正确运行”的能力。后者我们知道怎么做,而前者恰恰是很多真正有用的人类工作所需要的。
我们对 2026 年有什么期待?OpenAI的 Greg Brockman 表示,2026 年人工智能的两大突破将是智能体的普及和科学加速。你怎么看?
我认为 AI 会让我们分心。我们距离那个目标还很远,短期内恐怕难以到达。但即使不能实现 AGI,我们所拥有的东西也已经极其宝贵。
我创造了“Agentic AI”这个词,用来描述我所看到的日益增长的现象,即使当时构建有用的业务流程 AI 需要付出巨大的努力,有时候我们这样做的结果也极其宝贵。因此,在 2026 年乃至更长远的未来,将会有很多令人兴奋的工作:构建 AI 智能体或智能体工作流程,来完成大量真正有价值、具有重要经济意义的工作。
在我的 AI 团队,我们一直在使用智能体工作流程编写代码,就像很多其他人一样,但我们也在做诸如审查文件以核实关税合规性、阅读复杂法律文件帮助律师更好地完成工作、协助医疗援助任务,以及支持客户服务等工作。我发现,将人们目前处理这类任务的心理过程编码成 AI 智能体工作流程,让 AI 来替你完成这项工作,是非常有价值的。我认为,构建这些智能体工作流程的工作将持续很多年,而其价值将非常巨大。
我们正在谈论的是智能体工作流。Rich Sutton教授曾有句名言:“原始计算能力总是胜过人类的聪明才智。”专注于智能体工作流,难道不是在与这个观点背道而驰吗?
Rich 关于“苦涩的教训”的那篇文章非常有影响力,也写得很好。我想先说清楚,我是支持 scaling 的。当我创立谷歌大脑,后来与 DeepMind 团队合并创建Gemini项目时,我的首要任务就是 scaling,训练非常大的神经网络,投入大量数据。我大概是AI领域最早主张规模化的人之一。
您是 scaling 时代的缔造者。在几乎所有人都认为这是一件奇怪的事情去追求时,您推动了 scaling。
是的,我非常相信 scaling。这是因为谷歌大脑团队的 DNA 就是以 scaling 为核心,那是团队的第一要务。显然一个团队会做很多事情、关注很多事情,但第一使命就是规模化。这就是我创立谷歌大脑的方式,也正因为这种 DNA,是谷歌大脑团队发明了 Transformer 神经网络架构,它推动了生成式人工智能革命。所以我真的非常相信 scaling。
话虽如此,在不同的时间节点上,我们 scaling 的能力与注入其他形式知识的能力之间需要取得平衡,我认为仅靠 scaling 无法实现我们想要的一切。scaling非常强大,但就像很多事情一样,我们有时会看到企业为了融资或公关等目的而过度炒作某一现象。确实,由于 scaling law 的存在,当你扩展系统时,可以相当准确地预测性能走向,这一点最初由我在百度的团队证明,后来 OpenAI 也进行了验证。这实际上是一个非常好的融资论据,因为你可以说:“给我更多资金,我来扩大这些机器的规模,扩大数据量,获得更好的结果。”但正因为 scaling 这个核心真理的存在,我认为它被炒作得超出了其实际价值,它的价值已经非常惊人,但没有炒作所说的那么高。尽管如此,它仍然极具价值。而智能体工作流使我们能够充分利用规模化的人工智能模型,并在此基础上额外注入其他类型的知识,从而构建更可靠、性能更强的工作流。
您今天真的相信 scaling 时代结束了吗?
不,我不认为 scaling 时代结束了,只是越来越难了。AI 可能一直在呈指数级进步,而驱动这种进步所需的投入也在呈指数级增长。大量资金被投入以换取指数级的快速进步,这本身并不是坏事,因为建造成本可以面向大量用户分摊,非常划算。我觉得规模化还有更多好处可以挖掘,但它并不是我们目前改进AI的唯一途径。
什么会改变您对关于 scaling的看法?
如果持续较长时间的 scaling 努力无法获得回报,那将促使我改变想法。但有一个重要的补充,就像摩尔定律几十年来推动了进步,但运用了许多不同的技术来维持这一趋势一样,驱动规模化的具体方法已经发生了相当大的变化。
生成式 AI 早期的方案是:获取更多数据,训练更大的模型。但AI模型几乎已经读完了整个开放互联网,所以这种简单的 scaling 方式已经不再奏效。这就是为什么现在很多团队在合成数据、强化学习的不同方法以及其他方面投入了更多工作。即使 scaling 仍然继续带来回报,驱动这种 scaling 的方法在过去两三年里确实已经发生了相当大的变化。
那么,从另一个角度来看,一个更聪明的模型难道不能直接胜过精心设计的智能体工作流程吗?
从理论上说,可以。但我希望事情真的那么简单。在实践中,我认为这比大多数人想象的要难得多。
为什么?
我认为一件非常棒的事情是,随着模型变得更加智能,我们越来越能够给大语言模型一套工具,然后让它自由发挥。例如,我们给它一套读写文件系统的工具,然后让它去完成某些任务,像是查找多余文件、帮我清理硬盘之类的。这些模型的表现非常出色,真的非常非常令人印象深刻。
但话虽如此,对许多工作流程来说,它还不够可靠,还没达到生产就绪的程度。目前我看到很多实际的商业用例,是团队仔细梳理所需的工作流程,确定关键步骤,然后实施,以获得可靠的性能,让这些东西运行一万次,每次都能正常工作。
随着模型变得更加智能,我们也在让它们更加自主,逐渐移除护栏。我的团队经常会这样做,六个月前构建的东西可能有更多护栏、更多脚本化的内容,而我们会定期减少这些脚手架。与其给出非常详细的一步一步的指令,我们更倾向于说:“你自己决定要做什么吧。”
举个例子,我们以前构建深度研究工具时会这样告诉它:研究某个话题,做网络搜索,执行这么多次查询,然后下载这么多页面,再总结,等等,这是一两年前典型的研究型智能体工作流。而现在,AI 模型更有能力自己决定是否要继续搜索网络、是否要进行总结。所以我经常发现自己在把一年前、六个月到一年半前构建的原型系统里的指令删掉,告诉它:“嘿,自己做判断吧。”
但距离目标仍有很长的路要走。以深度研究为例,如果它漏掉了一个引文或参考文献,这不是世界末日。但对于很多高风险的企业应用场景,考虑到 AI 可靠性方面的差距,我怀疑这个差距的弥合速度,仍然比某些人预期的要慢。
我需要问您一个关于 Yann LeCun 和 Demis Hassabis 之间争论的问题。Yann LeCun 曾说过,人类智能是专门化的,而非通用的。而 Demis Hassabis 则认为大脑在理论计算层面具有通用性。您持什么立场?
我觉得这两者之间并不矛盾,也许是我遗漏了什么。对我来说,人类大脑令人惊叹之处,假设人类就是 AGI,只不过不是人工的,而是真实的通用智能,在于它的可塑性,也就是它的学习能力。
我认为 AGI 应该更少地关注"已经无所不知的 AI",那似乎非常困难,也不太实际。人类大脑在经济任务中如此有价值,其中一个原因就在于它能够学习做任何需要做的新事情。正是通过学习,我们才获得了这些令人难以置信的专门化智能。比如人类大脑通过攻读数学博士学位,学会了解决极其困难的数学问题。这作为终点来说是非常专门化的智能,但它的起点是学习。理论上,同一个人类大脑,只要接受不同的训练,可以成为国际象棋大师,也可以在网球上表现出色。所以对我来说,人类大脑之所以如此通用,并不是因为我或你的大脑已经无所不知,而是因为我们具备适应和学习各种各样事物的能力。
这难道不是默认站在了 LeCun 那边吗?
是的。有一件事真的激励了我,那是我在谷歌大脑团队时的想法。人们不再那么多讨论这件事了就是:人类的许多学习成果可能源于一种学习算法。这意味着什么?结果发现,我们的 DNA 并没有那么长,所以我们的 DNA 所包含的信息量非常有限。但不知何故,我们的 DNA 已经编码了大脑的生物学机制,而大脑是一种相当通用的学习算法。这就是为什么大脑能够学会攻读数学博士学位,或者学会骑摩托车,或者学会用电脑打字,或者学会在呼叫中心工作,因为大脑拥有这种非常通用的学习算法,通过学习专攻某一领域,它就能在其中表现出色。这正是智能看起来具有通用性的原因。正是这种学习能力,使你几乎能够精通所有专业领域。
几个月前,有人说谷歌注定要完蛋,因为他们只是把 AI 应用于旧的搜索模式,而 OpenAI 是从零开始构建的。您认为他们能将传统与现代结合起来吗?
竞争已经开始了,真令人兴奋。我想说,Sam 是我的斯坦福学生,我也有很多朋友在谷歌工作,所以我非常支持OpenAI,也非常支持谷歌。
回顾技术颠覆的历史,每当出现技术变革时,有时新入局者会胜过现任者,但实际上两者都有发挥空间。如果我们看看互联网颠覆性创新,谷歌是一家随着互联网崛起而壮大的初创公司,但也有一些现有企业,比如微软和苹果,创立于互联网出现之前很久,它们也做得很好。所以很明显,AI 对谷歌这样的现任者非常具有颠覆性,但我认为谷歌打得很好。我觉得 Gemini 是一款令人惊叹的模型。
比 ChatGPT 好?
我同时使用 Gemini、ChatGPT、Claude 以及很多其他模型。
您一直在谈论AGI,五年前……
我可以直说吗?我其实不太喜欢有人在谈论 AGI,它现在太火了。我感觉,当该领域的领导者面对铺天盖地的炒作时……
您认为 AI/AGI 只是炒作吗?
它被严重过度炒作了。至少公众眼中的 AGI,是 AI 在非常通用的意义上变得与人类一样智能,我们距离那个目标还差得很远。我希望我们能到达那里,我非常希望实现 AGI,但现实地说,我认为我们还需要几十年,也许不止几十年。所以那种“再过几个季度就能实现 AGI”的想法根本不会发生,除非你重新定义 AGI,降低门槛,让它更容易实现。
坦率地说,在 AI 的历史上,我们经历过几次“AI 寒冬”,当时好心人过度炒作 AI 的前景,导致预期过高而无法实现,最终投资和兴趣崩溃。AI 现在确实运作得非常好,价值难以估量。我看到的能够阻碍 AI 发展势头的因素相对较少,但我真正担心的一件事是:过度炒作导致失望,进而导致所谓泡沫的破裂,这对世界和 AI 领域都不好。因此,消除关于 AGI 的过度炒作,是为更可持续发展奠定基础的重要工作。
五年前,解决任何编程问题可能都会被称为 AGI。今天我们拥有了它,却只叫它“工具”。我们是否移动了球门柱?
我不记得有哪支靠谱的团队真正宣布实现了 AGI。我记得有些团队宣称 AGI 就在不久的将来,但我不认为三年前的团队真的宣称自己获得了 AGI,他们说的是“我们很快就能到达那里”。而到目前为止,还没有人真正到达那里。
您不认为我们移动了门柱吗?
我认为如果有的话,各团队一直在试图降低实现 AGI 所需的门槛。能够完成人类任何智识任务的 AI,这是一个非常高的标准,我们距离这个标准还差得很远。但如果各团队提出更容易实现的替代定义,那也许我们可以更快地到达那里。我不介意我们如何定义 AGI,但问题在于,大多数公众认为 AGI就是非常通用的智能 AI,基本上就是类人智能。
主观性的问题
是的。基本上,因为人们不断提出替代定义,这个术语就变得混乱了,当许多不同的人用同一个词指代完全不同的两件事时,这个词就失去了意义。
举个例子,我们都知道“蓝色”这个词是什么意思,对吧?我的衬衫是蓝色的。但如果出于某种原因,有人把各种不同颜色都指着说“这是蓝色,这是蓝色”,那么“蓝色”这个词就会失去意义,因为人们甚至不知道它意味着什么了。AGI 就是这样的发展历程,不同团队提出了不同的替代定义,人们说“这是 AGI,那也是 AGI”,因为很多人在用不同的定义套用这个术语,现在当有人说 AGI 时,很难理解他们究竟是什么意思。
而广大公众认为 AGI 就是 AI 达到人类智力水平。所以如果有人用某个奇怪而狭窄的技术定义,指出 AGI 将在两年内出现,但更广泛的公众认为这意味着 AI 会在两年内变得和人类一样智能,我觉得这根本不是真的。
让我们来聊聊实际情况。工程细节重要吗,还是一切都取决于底层模型?
我认为框架非常重要。看到 Anthropic 构建 Claude Code 以及他们的 SDK,真的令人印象深刻,他们确保自己和其他人拥有良好的框架来使用支撑它的模型。提示词的结构方式、给语言模型提供哪些工具,所有这些细节现在仍然非常重要。举个小例子:我们当前的模型非常智能,在工具调用方面也越来越好。但如果你给语言模型太多工具,它会消耗大量输入上下文,更容易出错,调用错误的 API 或工具。现在是 2026 年,为什么我们还需要担心这些工程细节?事实证明,我们确实需要,因为这仍然对整体性能有很大影响。很多团队使用 MCP,我也大量使用 MCP,其中一个实际工程问题是:如果你的 MCP 服务器的工具列表太长,它会消耗大量输入上下文,而且工具太多可能导致模型难以有效判断该使用哪个。所以你需要进行上下文工程,有时框架能让这些决策更加顺畅。
Anthropic 预测持续学习将在 2026 年之前解决。您对此有何期待?持续学习何时会被解决?
如果最终结果真如预计的那样,在 2026 年彻底解决,那就太好了。我预计我们会取得进展,我认为持续学习非常重要。
一个孩子学会走路,从几步开始、跌跌撞撞。而强化学习需要数百万次模拟。我们是否只是在依靠蛮力学习?
蛮力学习的挑战之一在于:在某种程度上,人类智能的强大之处正是来自于通用学习能力。这是构成人类大脑如此强大的算法。快速学习新事物的通用能力,正是为什么与我们合作的人类员工能够做很多事情。如果你需要花费很长时间用蛮力让 AI 强行完成某些狭窄的任务,在某些情况下仍然非常有价值,但这并不是一个充分的理由让它参与很多任务。
比如,雇用一个人、和他们谈谈、想办法让他们做什么,然后真正有意义地工作,这非常有价值。但如果你需要花费一百万美元来训练 AI 完成这项任务,那么对于很多它根本没法胜任的任务,付这么多钱去训练 AI 确实说不通。
如果样本效率无关紧要,只有三家公司能负担得起训练前沿模型的费用,那将会怎样?
如果样本效率不重要,那么不幸的是,只有三家公司能够负担得起训练前沿模型,那么 AI 作为寡头垄断,开源模型与专有模型之间不断演变的动态将非常有趣,我希望我们不会走向那个未来。
如果我看看移动开发平台,它现在已经不那么有趣了,部分原因是存在两个守门人。在移动端做任何事情,至少在美国,你需要 iOS 或 Android 的许可,所以有些创新根本不被允许,因为这些封闭平台的存在。
AI 领域的很多人真的希望不会出现两三个守门人来控制前沿 AI 的构建。如果有人有想法,我希望人们能够在大语言模型之上自由创新。因此,开源和开放权重模型是防止少数守门人崛起的关键。如果我们能确保每个人都保留创新的自由,我们在 AI 世界今天拥有的自由远比移动世界多,那么我们将看到更多发明、更多酷炫应用,社会也将因此更加富裕。
持续学习真的有必要吗?
持续学习还有很多工作要做,我认为它是目前 AI 领域重要的开放研究课题之一。目前很多基于文本的记忆系统让 AI 做完它该做的事后,把一堆文本写入某种智能体记忆中。问题是:文本真的是足够好的记忆表示方式吗?现在有一些关于非文本表示的研究,但目前大部分还是基于文本。
而且,我们正在构建的这些记忆系统,并没有持续更新语言模型的权重,感觉我们漏掉了拼图中的一块,实际上并不具备真正的记忆功能。我的一些团队有过一些想法,还不确定会把他们带到哪里去。在持续学习方面,人类能做到的,AI 还做不到,这似乎仍然是一个很大的差距。
目前持续学习最大的瓶颈是什么?
我会说我们还没有找到正确的想法,或者不确定什么才是正确的想法。有很多想法,只是……
连您也不知道?
我有一些觉得很有前景的想法,但,也许让我先试试,如果有效的话再告诉您。我真的不知道它是否会奏效。对我来说,这就像是在问:解决这个巨大未解研究问题的瓶颈是什么?我不知道,因为通往那里的路并不清晰,所以我甚至无法说清楚确切的瓶颈在哪里。我们只是还不知道该怎么做。
Eliezer Yudkowsky 说过,如果有人构建出 AGI,每个人都会死,但我们每年都在拖延,而数百万人正死于癌症和衰老等疾病,也许AI能够解决这些问题。哪个风险更大?
我读了他的很多论点,发现它们在循环论证方面问题很多,我甚至不知道为什么要和他们争论。我觉得,AI 正在为世界带来诸多益处。我们能做的任何加速 AI 发展的事情,都将带来更美好的生活、拯救更多生命、让很多人摆脱贫困。AI 的净收益远大于净损害。确实存在一些有害的使用案例,让我们把那些人找出来并排除,但此刻,我们能做的任何加速 AI 发展并使其对人类有益的事情,我都非常有信心。
从您的角度来看,未来是不可预测的,对吗?
我真希望自己知道如何预测未来。当然,这确实难以预测,但我觉得,仅仅因为我们不确切知道世界将会走向何方,并不意味着我们无法把握其中的趋势。对我来说,在计算机领域拥有更多智能,这一点非常清楚,是非常好的事情。让获取智力的途径更加民主化,结果发现世界上最昂贵的东西之一就是智力,聘请一位优秀的医生、一位优秀的老师,这需要花很多钱。
我们是否需要更多 AI 安全工具?
周围的每个人都在专注于有利可图的事情。
我认为很多人会感到惊讶。有一种观点认为硅谷的人只在乎钱,其他什么都不在乎,但这完全是错误的。我认识很多公司的 CEO,是的,有极少数人只关心利润,但这只是非常小的一部分。我认识的很多人,在这些公司工作了十年甚至更长时间的朋友,他们真的想做正确的事。人们认真对待 AI 治理,认真对待负责任的 AI,会坐下来认真头脑风暴 AI 系统可能出现的各种好的和坏的情况,并努力降低风险。确实存在一种刻板印象,硅谷里一群只为利润不择手段的"牛仔"。这完全不是真的。当然,不幸的是,确实有少数公司面对数十亿美元的诱惑时经不住考验,但那真的只是极少数。
开源时代结束了吗?
开源现在发展得很好。一个有趣的现象是,很多最好的开放开源模型正在来自中国。回顾过去几年,每年开源选项或开放权重都在迅速增长,所以我认为开源运动非常强劲。同时,专有选项也发展迅速,但这没关系。重要的是开放选项也在强劲增长。
当您看到 AI 发展的当前阶段时,您脑海中会浮现出什么想法?
我想让每个人都能构建 AI。作为一名开发者,我再也不想手工编写代码了,我希望 AI 能为我写尽可能多的代码。AI 带来的软件工程加速非常明显。但很多人不清楚的是,很多不是软件开发者的人,如果能借助 AI 构建软件、用 AI 做事,会比不用AI好得多。我在自己团队中越来越看到这一点,懂得使用 AI 的营销人员,正在把不懂的人远远甩在后面。我在 AI Fund 的 CFO 会写代码,她用 AI 辅助完成的工作,远比一个不会写代码的假想 CFO 多得多。
所以我看到的是,使用 AI 工具,特别是用 AI 构建软件,感觉是一种非常重要的新能力,我们需要让每个人都拥有。随着新能力的出现,很多人会拥抱它们、迅速上手,能够做更多事情、生产力大幅提升。但遗憾的是,也会有人不去拥抱这些变化,最终会被落下。这让我非常担忧。
一个很大的挑战是,很多大学适应课程的速度很慢,仍在培训学生从事 2022 年的工作。但那些工作很多已经不再存在了。雇主不想要 2022 年风格的员工,但同时,很多雇主又找不到足够多懂 AI、知道如何用 AI 构建东西的人才,不仅仅是软件工程师,我找不到足够多懂 AI 的营销人员、招聘人员和财务专业人员。调整教育体系,让学生以及成年人都能使用这些工具并完成更多工作,这需要教育系统的巨大转变。但如何在这个时刻实现这一点,在我看来仍然非常具有挑战性。
AI 需要具备哪些条件才能取代您作为教育者?
我真希望我知道。结果发现我的团队经常尝试编写 AI 来取代我,而我是带着祝福和鼓励的。但他们至今还没能找到人替代我。我怀疑我是某种通用形式的 AI。
或许我们并不了解学习是如何进行的
是的,我也这么认为。如果我们能实现 AGI,那可能会很棒,那我就退休,去做点别的事。我感觉,要替换很多技术娴熟的人,感觉仍然像是一个 AGI 层面的问题。我觉得,我们在狭窄垂直领域构建 AI、服务于细分垂直领域的能力,将会比这种希望通用的 AGI 增长得快得多。
驾校其实挺有意思的。美国的驾校一直以来都很脆弱。其他国家已经有很多创新,采用了类似驾驶模拟器的方式。在很多国家,驾驶模拟器占了驾驶小时数的相当一部分,但在美国并非如此。驾驶模拟器在美国和很多其他地方并没有被广泛用作教学工具,这有些令人沮丧。我觉得美国应该更多地使用驾驶模拟器,因为这是一种非常安全的教导孩子的方法。
程序员会失业吗?
我认为不使用 AI 的程序员,他们会遇到麻烦。但真正了解 AI 的程序员,他们的生产力高得惊人,只是找不到足够多这样的人。
他们会被淘汰吗?
淘汰听起来有点糟糕。我认为大多数工作岗位并不会消失,但令人遗憾的是,AI 不会取代某个人,但某个使用 AI 的人会取代那个不使用 AI 的人,很多时候确实是如此。
坦白说,确实有少数工作岗位是完全由 AI 自动化完成的。我认为很多翻译人员遇到麻烦了,配音演员也可能遇到麻烦。坏消息是,有一小部分角色是 AI 可以完全自动化的,我真的很同情他们,我认为我们有责任为他们做很多事,确保他们能够获得新技能,离开劳动力市场,寻找其他有意义的工作。作为一名 AI 从业者,我觉得我有责任尽我所能,确保人们得到照顾。
但对于绝大多数工作而言,AI 只能自动化其中的一部分。
放射科医生呢?
我觉得比人们预想的要花更长时间。人们曾想过让放射科医生的工作自动化,而律师花费的时间也比我预测的要长得多。
律师呢?
完全取代人类律师将会非常困难。但不使用 AI 的律师,会比那些使用 AI 的律师效率低得多,因为 AI 在法律研究方面非常出色。我认为 AI 可以在法律的某些部分做得很精通。但诀窍在于,如果 AI 能够完成某项工作的 30%,剩下的 70% 你还需要一个人来做,那个更好地利用 AI 的人,比不使用 AI 的人生产力要高得多。
您能预测哪些工作最终会消失吗?
明显的有,很多客服中心的工作正在消失,翻译工作、配音演员工作。处境危险的是那些几乎 100% 的工作都可以被自动化的职位。但事实证明,很多工作是如此复杂、多方面,所以对于大多数工作,AI 可以自动化大约 30% 到 40%,你仍然需要人类来完成剩余的 60% 到 70%。只有极少数工作中 AI 可以自动化几乎所有内容,那些工作才真正面临危险,但这只是所有工作中非常小的一部分。
您认为中国现在领先吗?
我认为 AI 是多方面的,中国在某些方面领先于美国,比如开源和开放模型;而美国在某些方面领先于中国,比如专有模型。
您是如何决定成为AI的传播者的?原因是什么?
我认为有两件事是最优先考虑的。
第一件是让人类变得更强大。这就是为什么我成了一名研究员,成为斯坦福大学教授,我认为推进技术发展的研究能够让人类更加强大,发明新技术。所以我相信使人类更加强大。
第二件是帮助他人实现梦想。帮助他人实现他们的梦想,而不仅仅是帮助他人实现我的梦想,这与追求卓越同等重要,贯穿我的一生。如果我们能给别人提供工具、技能和优势,让他们处于更好的位置去实现自己的梦想,这就是为什么教育通过 deeplearning.ai 一直以来都对我有很强的激励作用。
回顾您的故事,如果可以的话,您会回到过去改变一些东西吗?
坦白说,有很多事情我会采取不同的做法。我一直很幸运,做了一些好的决定,但也做了太多糟糕的决定。比如,我应该聘用那个人,或者应该做那个项目,或者我应该在那个项目上更加努力而不是放弃,诸如此类。
如果您能找到一个关于现实是什么样子的答案,那会是什么?
我希望我能明白智能的本质是什么。
您指的是意识吗?物质如何转化为人类大脑内部的意识?
其实不是意识。我认为意识是一个重要的哲学问题,但我不知道意识是什么。哲学家谈论的意识是自我意识的概念,但事实上,你不知道我是否有意识,我也不知道你是否有意识。哲学中有一个概念,也许我只是一个"僵尸",并没有真正的意识,只是在移动手臂、动着嘴巴假装有意识。因为你无法进入我的内心体验,反之亦然,我们实际上不知道其他任何人是否有意识,但出于礼貌,我们假装每个人都和我们自己一样有意识。对我来说,因为意识是无法测量的,它对我来说是一个哲学问题而非科学问题。而我更倾向于科学问题。
对我来说,智能的本质是:究竟是哪些机制在起作用,允许人脑或其他生物大脑展现出如此多种多样的智能行为?我们理解这一点了吗?这到底是怎么运作的?
顺便提一下,有一件不太广为人知的事情。在谷歌大脑创立之前,我做的其中一件事就是经常和我的神经科学家朋友们交流,我当时读了大量神经科学论文,得出的结论是:我非常尊重我的神经科学朋友们,但坦白说,神经科学对大脑的运作方式其实知之甚少。于是我放弃了将神经科学作为通往培养智能的道路,但理解智能究竟是如何运作的、智能的本质是什么?这个问题我非常确定不是带有扩展定律的 Transformer 网络所能回答的,那还远远不够。
推理的本质又是什么?
是的,我认为推理是智能的一个子集。理解推理是如何实际运作的,也一定会非常精彩。
非常感谢您抽出时间。
谢谢。
整理:王江珏
如需转载或投稿,请直接在本文章评论区内留言。

内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢