日前,OpenAI 首席执行官 Sam Altman 在红杉资本 AI Ascent 2025 活动上进行了一个 30 多分钟的现场访谈,并回答了现场观众提出的诸多问题。干货满满,分享给大家。

在访谈中,他回顾了 OpenAI 如何从一个 14 人研究实验室发展成为一个占主导地位的人工智能(AI)平台的历程。

他还设想,未来将 ChatGPT 转变为深度个人化的 AI 服务,记住每个用户的整个生活环境,同时在所有服务中无缝运行

另外,他还解释了 OpenAI 保持高产品迭代速度的原因,“我认为很多公司犯的错误是,公司规模变大了却不做更多的事情。你希望每个人都很忙。你希望团队小。相对于你拥有的人数,你希望做很多事情......如果你要增长,你最好做更多的事情,否则只会有很多人坐在你的房间里争吵、开会或谈论其他事情。”

此外,他还谈到了大型公司AI转型的挑战,称大型公司在 AI 转型上进展缓慢,往往因为固守旧有方式和流程。他们犯的错误和以往一样,那就是变得非常固执己见。

最后,他描绘了这样一个未来:一个高效的单一小型模型可以在无需重新训练的情况下,对你的全部历史记录进行推理,从根本上改变你在日常生活中与技术互动的方式

学术头条在不改变原文大意的情况下,做了适当的删减和调整。内容如下:

主持人:下一位嘉宾无需介绍,Sam Altman。Sam 已经连续三次参加我们举办的 AI 活动并分享他的想法,非常感谢。

Sam Altman:这曾是我们的第一个办公室,所以回到这里感觉很好,那是 2016 年。


那么,在 2016 年时,你是否想象过今天会再次来到这里?


没有。当时我们坐在那边,大约 14 个人,那时我们还在看着白板,试图讨论我们应该做什么。这几乎无法描述我们那时有多像一个研究实验室,有着非常坚定的信念和方向,但没有真正的行动计划。我的意思是,不仅公司或产品的想法是不可想象的,大语言模型(LLM)作为一个概念还很遥远。所以,我们在尝试玩电子游戏。


你们现在还在尝试玩电子游戏吗?


现在,我们在这方面做得很好了。


你们直到 6 年后才推出第一个消费者产品,就是 ChatGPT。一路走来,你是如何思考这一里程碑的,这是历史的意外吗?


第一个消费者产品并不是 ChatGPT,而是 DALL-E,第一个产品是 API 形式的。我们已经构建了一些东西,经历了几个不同的方向。我们有几个真正想要押注的方向。最终,如我所说,我们说:好吧,我们必须构建一个系统来看看它是否有效,而不只是写研究论文。所以,我们要看看能否玩电子游戏。我们要看看能否做一个机器人手。我们要看看能否做其他几件事。起初是一个人,然后最终是一个团队对尝试做无监督学习和构建语言模型感到兴奋。这催生了 GPT-1,然后是 GPT-2,到了 GPT-3 时,我们都认为我们有了一些很酷的东西,但我们想不出该怎么用它。我们也意识到我们需要更多资金来继续扩展。我们已经完成了GPT-3,我们想要训练 GPT-4。我们当时进入了数十亿美元模型的世界。很难把它们纯粹作为科学实验,除非你是像粒子加速器那样的设施,即使那样也很难。


所以,我们开始思考,我们既需要弄清楚这如何成为能够持续投资的业务,也感觉到这正朝着真正有用的方向发展。我们曾将 GPT-2 作为模型权重发布,但没有发生太多事情。我对公司产品的观察是,如果你做一个 API,通常在上行方面会有所作为。这在许多 YC 公司中都是如此。而且,如果你让某些东西更容易使用,通常会带来巨大的好处。


所以我们想,运行这些模型很难,它们越来越大,我们要写一些软件,做好运行它们的工作。而且我们不会自己构建产品,因为我们想不出要构建什么。我们希望其他人能找到要构建的东西。所以我记不清确切时间,但大概是 2020 年 6 月。我们在 API 中发布了 GPT-3,在硅谷引起了关注。他们说:这有点酷,这指向了某些东西。”奇怪的是,我们几乎没有得到世界大部分地区的关注。一些创业创始人会说“这真的很酷”,或者说“这是 AGI(通用人工智能)”。


我记得唯一用 GPT-3 API 构建真正业务的,是几家做文案写作服务的公司。那是 GPT-3 经济门槛上唯一能做的事情。


但我们确实注意到一件事,最终导致了 ChatGPT 的诞生:尽管人们无法用 GPT-3 API 构建很多伟大的业务,但人们喜欢在 playground 中与它交谈。它在聊天方面很糟糕。那时我们还没有弄清楚如何做 RLHF(基于人类反馈的强化学习)来让它更容易聊天,但人们仍然喜欢这样做。从某种意义上说,除了文案写作外,API 产品唯一的杀手级用途就是引导我们最终构建ChatGPT。


到 GPT-3.5 推出时,可以用 API 构建业务的类别可能已经从 1 个变成了 8 个。但我们相信,人们只是想与模型交谈的信念变得非常强烈。所以我们做了 DALL-E,也还做得不错,但我们知道我们想要构建,特别是随着我们能够进行微调,我们知道我们想要构建这个模型,这个产品,让你与模型交谈。


你已经连续三次参加我们的活动,期间有很多起起落落,但看起来你们过去 6 个月一直在发布、发布、发布。这是一个多部分问题。你是如何让一个大公司随着时间推移增加产品速度的?


我认为很多公司犯的错误是,公司规模变大了却不做更多的事情。他们只是因为规模应该变大而继续扩大,但不发布新的产品。那时糖浆般的缓慢就开始了。我坚信你希望每个人都很忙。你希望团队小。相对于你拥有的人数,你希望做很多事情,否则你只会有 40 人参加每次会议,为了谁得到产品的哪个微小部分而发生争吵。商业上有一个古老的观察,一个好的执行者是一个忙碌的执行者,因为你不希望人们混日子。但我认为,在我们公司和许多其他公司,研究人员、工程师、产品人员,他们几乎创造了所有价值,你希望这些人忙碌且高效。所以如果你要增长,你最好做更多的事情,否则你只会有很多人坐在你的房间里争吵、开会或谈论其他事情。


所以,我们尝试让相对较少的人承担巨大的责任。要做到这一点,就需要做很多事情。而且,我们必须做很多事情,如果我们真的有机会构建一个重要的互联网平台。但要做到这一点,如果我们真的要打造一个个性化的人工智能,让人们在多个不同服务中使用它,贯穿他们的生活,涵盖所有这些不同的主要类别,以及我们需要弄清楚如何实现的所有较小类别,那就是有很多东西要构建。


过去 6 个月中,有什么令你特别自豪的发布吗?


现在的模型已经很棒了。当然,它们仍有需要改进的地方,我们正在快速解决这些问题。我认为,现在 ChatGPT 是一个非常好的产品,因为模型已经非常好了。当然,其他东西也很重要,但我对一个模型能够如此出色地做那么多事情感到惊讶。


你们正在构建小型模型和大型模型。正如你所说,你们在做很多事情。那么,如何才能让这些观众不被你们左右,不被你们淘汰呢?


我们构建模型的方式是,我们希望它们作为人们的“核心 AI 订阅服务”,并成为他们使用 AI 的方式。其中一部分将是你在 ChatGPT 内做的事情,我们还会有几个其他关键部分构成这个订阅服务。最重要的是,我们希望构建一个越来越智能的模型。我们将拥有这些界面,比如未来的设备、未来那些类似于操作系统之类的东西。然后,我们还没有完全弄清楚,什么样的 API 或 SDK,或者随便你怎么称呼它,才能真正成为我们的平台。但我们会弄清楚的。可能需要几次尝试,但我们会的。我希望这能够让世界创造出令人难以置信的财富,让其他人在此基础上构建。是的,我们要争取做核心 AI 订阅和模型,然后是核心服务,还会有大量其他东西要构建。


不要做核心 AI 订阅服务,但你可以做其他所有事情。


我们会尝试。如果你能做出比我们更好的核心订阅服务,那就去做吧,那会很棒。


有传言称,你们正在以 3400 亿美元估值融资 400 亿美元左右的资金,我不知道我们是否已经宣布了。你们最终希望是一个怎样的规模?


我们将努力训练出色的模型并发布好的产品,除此之外没有什么大计划。我看到观众中有很多 OpenAI 的人,他们可以证明这一点。我们不会坐在那里制定什么,我坚信你可以做好眼前的事情,但如果你试图从一个极其复杂的设想倒推,那通常效果不太好。


我们知道我们需要大量的 AI 基础设施,需要建立大量的“AI工厂”产能,需要不断让模型变得更好,以及需要构建一个出色的消费者产品和所有相关组件。


但我们以能够灵活应变、根据世界变化调整策略而自豪。所以,我们明年要推出的产品,可能现在都还没开始考虑。 


我们相信我们可以构建一套人们真正喜爱的产品。我们对此有坚定不移的信心,我们相信我们可以构建出色的模型。我实际上从未像现在这样对我们的研究路线图感到乐观。


研究路线图上有什么?


真正智能的模型。但就眼前的步骤而言,我们一次只考虑一两步。


所以,你相信向前推进,而不是从后往前推。


我听过一些人谈论他们如何有这些出色的策略,说他们将往哪里走,他们将反向工作,他们将如何接管世界,这是最终目标,这是...... 这是...... 这是今天我们所处的位置。我从未见过这些人真正取得巨大成功。


你认为大公司在转变组织以更适应 AI 方面做错了什么,无论是使用工具还是生产产品?很明显,在创新方面,小公司正在彻底击败大公司。


我认为,我认为这基本上是每一次重大科技革命都会发生的事情。对我来说这没什么好惊讶的。他们做错的事情与他们总是做错的事情一样,就是人们非常固执己见,组织也会变的非常固执己见。如果事情每隔一两个季度就发生很大变化,而你有一个信息安全委员会每年只开一次会,决定你要允许什么应用程序,以及将数据放入系统意味着什么,这真的太痛苦了。但这就是创造性破坏。这就是为什么创业公司会赢。这就是行业前进的方式。我对大公司愿意这样做的速度感到失望但不惊讶。我的预测是,还会有几年的抵抗,假装这不会重塑一切,然后是投降和最后一刻的争夺,但已经太晚了,总的来说,初创公司只是超越了用旧方式做事的人。


这种事情也发生在人身上,比如看看一个平均 20 岁的人如何使用 ChatGPT,然后去看一个平均 35 岁的人如何使用它或其他服务,差别令人难以置信。


这让我想起智能手机刚出来时,每个孩子都能很好地使用它,而年长的人则花了大约三年时间才弄明白如何进行基本操作。当然,人们最终会适应,但现在 AI 工具上的代际鸿沟非常明显,我认为公司只是这种现象的另一个表现。


你看到年轻人使用 ChatGPT 的哪些酷炫用例可能会让我们惊讶?


他们真的把它当作操作系统来使用。他们有复杂的方式来设置它,将它连接到一堆文件,他们在脑海中记住了相当复杂的提示,或者存在某个地方可以粘贴进来。


我认为这些都很酷,令人印象深刻,还有另一件事,他们不会在没有询问 ChatGPT 应该做什么的情况下,做出重大生活决定。它拥有他们生活中每个人的完整上下文以及他们谈论过的内容,记忆功能在这方面带来了真正的改变。年长的人则将 ChatGPT 作为谷歌的替代品,二三十岁的人可能把它当作生活顾问之类的东西,而大学生则把它当作操作系统。


你们在 OpenAI 内部如何使用它?


它帮助我们写了很多代码。它正在编写有意义的代码,它不知道写了多少,但它正在编写真正重要的部分。


你对关于你们未来发展方向的问题的回答,主要集中在消费者和成为核心订阅服务上,而且你们大部分收入也来自消费者订阅。为什么在十年后还要保留 API?


我真心希望这一切最终能融为一体。例如,你应该能够用 OpenAI 账户登录其他服务。其他服务应该有一个非常棒的 SDK,以便在某个时候接管 ChatGPT 的用户界面。但在某种程度上,如果你要拥有一个了解你、拥有你的信息、知道你以后想分享什么,并且拥有你所有这些背景信息的个性化 AI,你会希望能够在很多地方使用它。现在,当前版本的 API 离那个愿景还很远,但我认为我们可以到达那里。


像我们这些构建应用层公司的人,我们想使用那些构建模块,那些不同的API组件,也许是深度研究API,虽然还没有发布,但可能会有,然后用它们来构建东西,这会成为一个优先事项吗?我们应该如何考虑这个问题?


我希望它是介于这些之间的东西,有点像互联网未来的一个新协议,在 HTTP 级别上,事物被联合起来并分解成更小的组件,智能体(agent)不断使用不同的工具,身份验证、支付、数据传输,都在大家信任的这个层面上构建。一切都与一切对话。我不太认为我们知道那看起来是什么样子,但它正在从迷雾中浮现。当我们对此有更好的了解时,再次强调,我们可能需要几次迭代才能到达那里。但这是我希望看到事情发展的方向。


我很好奇,AI 显然会因为更多的输入数据而表现更好。是否有考虑过输入传感器数据,以及输入何种类型的传感器数据,无论是温度,还是物理世界中的事物,这样它就能更好地理解现实。


人们经常这样做。人们把传感器数据放入 API 调用或类似的东西中,对某些用例来说效果确实很好。我认为最新的模型似乎在这方面做得很好,而以前不是这样。所以我们可能会在某个时候更明确地将其内置,但已经有很多这样的事情发生了。


我非常兴奋能在 Playground 中体验语音模型,语音对于 OpenAI 在基础设施方面的优先级有多高?你能否分享一下你认为它将如何体现在产品和 ChatGPT 这个核心产品中?


我认为语音非常重要。老实说,我们还没有做出足够好的语音产品。这没关系,我们也花了很长时间才做出足够好的文本模型。我们最终会解决这个问题,当我们做到时,我认为很多人会想要更多地使用语音交互。


当我们首次推出当前的语音模形时,对我来说最有趣的是,它是在触摸界面之上的一个新的信息流,你可以一边说话一边点击手机屏幕。我一直认为,在语音加图形用户界面交互方面,有一些了不起的事情可以做,但我们还没有解决。在那之前,我们会先把语音做得非常好。当我们做到时,我认为不仅在现有设备上很酷,而且如果你能让它感觉像真正人类级别的语音,语音将使一类全新的设备成为可能。


类似的问题关于编码。我很好奇,编码只是另一个垂直应用,还是对 OpenAI 的未来更为重要?


对 OpenAI 的未来更为重要。如果你问ChatGPT一个问题,你会得到文本回复,也许你会得到一张图片。你希望能得到一个完整的程序。你希望每个回复都是定制渲染的代码,至少我是这么希望的。你会希望这些模型能够在世界上产生影响,编写代码将是你如何影响世界并调用一堆 API 或其他事物的核心方式。所以,我认为编码将属于一个更核心的类别。我们显然也会通过我们的 API 和平台来提供它。


你对路线图上更智能的模型有信心,太棒了!我有一个心智模型,里面有一些要素,比如更多的数据、更大的数据中心、Transformer架构、测试时计算。有没有什么被低估的要素,或者将成为这个组合一部分,但可能不在大多数人认知模型里的东西?


这些事情中的每一个都真的很难,而且显然,最高杠杆的事情仍然是重大的算法突破,我认为可能还有一些 10 倍或 100 倍的提升,不是很多,但即使一两个也是了不起的。算法、数据、计算,这些是主要成分。


你运营着世界上最好的机器学习团队之一。你是如何在让聪明人去追逐深入研究或其他看起来令人兴奋的事情,与自上而下地说“我们要构建这个,我们要让它实现”之间取得平衡的?


有些项目需要太多协调,必须有一点自上而下的统筹安排,但我认为大多数人在这方面做得太过了。我的意思是,可能有其他方式运营好的 AI 研究实验室或研究实验室,但当我们创办 OpenAI 时,我们花了很多时间试图理解一个运行良好的研究实验室是什么样子的。你必须回顾很远的过去。事实上,几乎所有能在这方面给我们建议的人都已经去世了。好的研究实验室已经很长时间没有出现了。


人们经常问我们,为什么 OpenAI 能够不断创新,而其他 AI 实验室只是“模仿”,或者为什么 X 生物实验室做不出好成果,而 Y 生物实验室却能,诸如此类。


我们一直在说,这是我们观察到的原则,这是我们如何学习它们的,这是我们在过去看到的。然后每个人都说很好,但我要去做其他事情。我们说没关系,你来向我们寻求建议,你想做什么就做什么。


但我发现,我们试图运行研究实验室的这些原则——并非是我们发明的,我们从历史上其他优秀研究实验室那里毫不羞耻地复制——对我们如此有效,这是多么令人惊讶。然后那些有一些聪明理由要做其他事情的人,结果没有成功。


作为一个知识爱好者,这些大型模型真正令人着迷的事情之一是,它们可能包含并允许我们回答这些关于人文学科的令人惊奇的长期存在的问题,关于艺术的周期性变化的有趣事物,甚至是社会中系统性偏见和其他事物在多大程度上真的在发生,我们能否检测到这些以前我们只能假设的非常微妙的事情。这些事情我们以前除了假设之外几乎无能为力。我想知道 OpenAI 是否有想法或甚至是路线图与学术研究人员合作,帮助揭示我们可以在人文和社会科学中首次了解的一些新事物?


我们确实有学术研究项目,我们与之合作并做一些定制工作,但大多数人只是说“我想访问模型”,或者“我想访问基础模型”,我认为我们在这方面做得很好。我们所做的一个很酷的事情是,我们的激励结构在很大程度上是为了让模型尽可能智能、便宜和广泛可访问,这对学术界和整个世界都非常有益。所以,我们确实有一些定制伙伴关系,但我们经常发现研究人员或用户真正想要的只是我们让通用模型在各个方面变得更好。所以,我们试图把我们大约 90% 的推力向量集中在这方面。


我很好奇,你是否认为定制化以及这些针对特定应用的不同后训练,是为了弥补核心模型的不足,还是为了让核心模型变得更好,以及你是如何考虑这个问题的。


从某种意义上说,我认为理想的状态是,一个非常小的推理模型,拥有万亿个 token 的上下文,你可以把你的整个生活都放进去


模型永远不会重新训练。权重永远不会定制。但那个东西可以在你的整个上下文中推理,并高效地做到这一点。你一生中的每一次对话,你读过的每一本书,你读过的每一封电子邮件,你看过的一切都在里面,加上连接了你来自其他来源的所有数据。而且,你的生活不断地附加到上下文中,你的公司也为所有公司数据做同样的事情。


我们今天还做不到这一点。但我认为任何其他方式都是对那个理想的妥协,这就是我最终希望我们如何做定制化。


你认为在未来 12 个月内,大部分价值创造会来自哪里?是高级记忆能力,还是安全性,或者允许 agent 做更多事情并与现实世界互动的协议?


从某种意义上说,价值将继续来自三件事:建立更多基础设施,更智能的模型,以及构建将这些东西整合到社会中的框架。如果你推动这些,我认为其余的会自行解决。


从更高的层面来看,我认为 2025 年将是 agent 大显身手的一年。特别是编码,我预计会是一个主导类别。我认为还会有其他一些。我预计,明年将是一个会有更多 AI 发现新事物的年份,也许我们会让 AI 做出一些非常重大的科学发现,或者协助人类做到这一点。而且,我坚信,人类历史上大部分真正可持续的经济增长,大部分都来自于更好的科学知识,然后将其应用于世界。然后是 2027 年,我猜那一年,所有这些都会从知识领域转移到物理世界,机器人将从稀奇事物变成创造巨大经济价值的严肃力量。但这只是我目前的一个初步猜测。


我要问几个简短的问题,其中一个是 GPT-5。它会比我们这里所有人都聪明吗?


嗯,我的意思是,如果你认为你比 o3 聪明得多,那么你可能还有一段路要走,o3 已经相当聪明了。


上次你来的时候,你刚经历了 OpenAI 的一段小插曲。现在事过境迁,你对这里的创始人有什么关于韧性、耐力和力量的建议吗?


随着时间的推移,它会变得更容易。我认为,作为创始人,你的旅程中会面临很多逆境,挑战会变得越来越困难,风险也越来越高,但随着你经历更多不好的事情,情感上的负担会减轻。所以,从某种意义上说,挑战会变得更大更难,但你应对它们的能力,你建立起来的那种韧性,也会随着每一次经历而变得更容易。


然后,我认为作为创始人所面临的重大挑战中最困难的事情,不是它们发生的那一刻。公司历史上会出很多问题。在紧急情况下,你会得到很多支持,你可以依靠大量的肾上腺素来运作。那就是,你有点像……即使是非常大的事情,比如你的公司资金耗尽并倒闭,也会有很多人来支持你。你总能挺过去,然后开始新的事情。


我认为更难管理自己心态的是事后的产生的后果。而且我认为,人们非常关注在危机发生的那一刻如何应对,而真正有价值的学习是如何收拾残局。关于这方面的讨论要少得多。我从未真正找到过什么好的东西可以推荐给创始人去阅读,不是关于如何在危机发生的当天、第一天或第二天应对,而是在第 60 天,当你努力从危机中重建时。那才是你可以练习并变得更好的领域。


谢谢你,Sam。据我所知,你名义上还在休陪产假。所以,谢谢你的到来。非常感谢。


谢谢。


整理:学术君
如需转载或投稿,请直接在公众号内留言

内容中包含的图片若涉及版权问题,请及时与我们联系删除