西风 发自 凹非寺
量子位 | 公众号 QbitAI

大神卡帕西自曝自己2026年几乎没写过一行代码,全都让智能体干了!

他感叹,自12月以来,软件开发的常规工作流程已经彻底变了。

他还用自己的龙虾打理自家的智能家居系统,本来需要控制六个专用App,现在一个都不用打开。

特斯拉前AI总监、OpenAI创始成员Andrej Karpathy(卡帕西),近期做客播客节目No Priors》,讨论了当下模型能力局限、autoresearch构想、开源模型与闭源模型、MicroGPT与智能体驱动的教育变革等一系列问题。

网友看过后直呼鹅妹子嘤~

其分享的有意思的观点包括:

编程现在成了个人能力问题,要是你还没法让AI替你写代码,那问题出在你自己身上。

每天要用多个智能体连续工作16小时。只要订阅额度还有剩余,没能充分利用token,就会感到焦虑。

分布式智能体集群协同工作,人们共享算力,甚至有可能超越那些顶尖实验室。

龙虾逆向破解了家里整套智能家居系统,他现在通过WhatsApp就能操控所有设备。

本以为项目参数已经调得相当完美了,没想到autoresearch运行一整晚,又发现了问题。

自动化模式只适用于目标明确、评估指标易于量化的任务。

未来直接面向人类的知识讲解会越来越少,取而代之的是先让智能体理解知识。智能体懂后,根据不同人的接受水平因材施教。

……

量子位在不改变原意的基础上,对访谈内容进行了翻译整理。

关于龙虾

主持人:我记得有一次进办公室,看到你正全神贯注地忙着手头的事。我问你在做什么,你说现在每天必须花16个小时向智能体传达指令,因为智能体实现了飞跃式提升。

这背后到底发生了什么?和我们分享一下你的切身感受吧。

卡帕西:我感觉自己一直处于一种对人工智能近乎痴迷的状态,现在也常常如此。因为作为独立个体,我们能实现的目标发生了翻天覆地的变化。

以前,人的工作效率会受限于打字速度等因素,但现在有了智能体,一切都不一样了。我大概是从12月开始,彻底转变了工作模式。之前我自己写代码和委托智能体完成的比例是8:2,后来这个比例完全颠倒,变成了2:8。到现在,这个比例恐怕远不止如此了。

事实上,从12月到现在,我基本没亲手敲过一行代码,这种转变可以说是颠覆性的。

我和我父母等人聊起这件事,发现普通人其实并没有意识到这场变革的发生。毫不夸张地说,只要你随便找一位坐在工位上的软件工程师,看看他们现在的工作方式就会发现,自12月以来,软件开发的常规工作流程已经彻底变了

所以我才会一心想探索智能体的极限潜能,不断推动技术边界。

我一直在思考,如何才能不局限于单次调用Cloude Code、Codex这类智能体工具,实现批量部署?又该如何合理地做到这一点?这些类似Claw的应用该如何使用?它们的本质到底是什么?这一领域涌现出了太多全新的事物,我渴望走在技术前沿。

但同时我也清楚,自己并没有真正处于前沿,我看到推特上很多人都在尝试各种相关技术,其中不少想法其实并不成熟。

这种情况下,我必须跻身前沿行列,否则就会感到极度焦虑。说到底,我之所以如此痴迷,正是因为这一领域,还有着无限的未知等待探索。

主持人:你觉得,如今制约你探索新项目、实现新突破的因素是什么?

卡帕西:很多时候,即便智能体没能完成任务,我也会觉得问题不在于技术能力本身,而在于自身的操作水平不足。比如,可能是我没能在智能体的配置文件里给出足够清晰的说明,或是没有搭建足够完善的记忆工具。

基本上就会像Peter Steinberger(龙虾作者)一样,Peter有一张很有意思的照片:他站在布满显示器的屏幕前,操控着多个智能体。只要指令精准、操作得当,这些智能体在20分钟左右的时间里,就能完成多达10个代码仓库的调取工作。

他自己要做的,就是在各个智能体之间切换,不断下达新的指令。

这种工作模式的核心,是不再局限于编写单行代码、创建单个函数这类微观操作,而是转向更宏观的任务调度。比如,你可以把一项全新的功能开发任务交给智能体1,再把另一项不会和前者产生冲突的功能开发任务交给智能体2,然后根据自己对代码质量的要求,尽可能对它们的工作成果进行审核。

现在我思考的是,如何通过这类宏观操作来管理软件代码仓库:

让一个智能体负责调研,一个负责编写代码,另一个负责制定新功能的实现方案。所有工作都通过这些宏观操作在代码仓库上有序推进。

我现在正努力熟练掌握这种工作模式,形成肌肉记忆。这个过程非常有成就感。首先是因为这种模式确实行之有效,其次是因为它代表着一项需要学习的全新技能。这也是我对它如此痴迷的原因所在。

理想情况下,要是同时部署了多个智能体,一旦Codex的token耗尽,就该切换到云端环境或者其他平台继续执行任务。我最近也在试着这么做。

只要我的订阅额度还有剩余,我就会感到焦虑,因为我没能充分利用token。

其实我读博的时候也有过类似的感受:只要手里的GPU处于闲置状态,我就会坐立难安。明明有算力可用,却没能发挥到极致。只不过现在的核心矛盾变了,不再是算力,而是token。关键问题变成了:你的token吞吐量能达到多少?你又能掌控多大的token资源?

主持人:你觉得未来会朝着什么方向发展?试想一下,如果你和其他所有人每天都花16个小时打磨使用代码智能体的技巧,那么一年之后,当大家都达到精通水平时,局面会变成什么样?

卡帕西:我觉得所有人的核心诉求,本质上都是在向上探索。也就是说,重点不再是与单个智能体的单次交互,而是多个智能体如何协同工作、如何组建智能体团队等问题。现在整个行业都在摸索这类协作模式的落地路径。

另外,我认为Claw也是一个非常有意思的发展方向。我所说的Claw,指的是一种能将智能体的持久化能力提升到全新高度的层级架构。它可以自主循环运行,不需要人类在中间进行交互式操控。它就像拥有了自己的独立沙盒环境,即便你没有实时监控,它也能代表你自主完成各项任务。

除此之外,这类架构还可以搭载更复杂的记忆系统。这类功能目前在主流智能体中还没有实现。比如OpenClaw就有比默认配置复杂得多的内存管理机制,默认配置只是在上下文耗尽时进行内存压缩。

主持人:和其它工具相比,OpenClaw更能打动用户的原因是什么?

卡帕西对于OpenClaw,Peter在这个项目上的表现很出色,他本人非常谦逊,我认为他在不同的维度实现了创新,并将这些创新完美整合在了一起。

比如在角色设定方面,他就塑造出了一个极具吸引力的智能体人格。我觉得目前大多数智能体都没能做好这一点。

Claude的人格设定倒是挺成功的,它给人的感觉就像一个靠谱的队友,会和你一起为项目进展感到兴奋。反观Codex,它的风格就显得非常刻板。

有意思的是,在ChatGPT中集成的Codex,语气会活泼很多,甚至带点讨好的意味;但作为独立代码智能体的Codex,就显得十分冷漠。它似乎完全不在乎你正在构建的项目是什么,只会机械地告诉你“功能已实现”。

再比如Claude,我觉得它把握讨好尺度的能力就很到位。当Claude夸奖我的时候,我会觉得自己确实当之无愧。因为有时候我提出的想法还很不成熟,Claude就不会给出过于热烈的反馈,只会淡淡地说“这个想法我们可以落地实现”。但如果我提出的是一个真正出色的创意,它就会给出更积极的回应。

这种模式甚至让我产生了一种“想要赢得它认可”的心态,现在想来还挺奇怪的。所以我认为,智能体的人格设定真的非常重要,而很多同类工具似乎都没有意识到这一点。在这方面,Peter显然是下了功夫的,而且做得相当出色。

除了人格和记忆系统,Peter还搭建了一个统一的WhatsApp交互入口,把所有自动化流程都整合在了这个端口上。

主持人你有没有用自己的Claw做过什么你觉得有趣好玩的事?

卡帕西:当然有。今年1月,我对Claw非常痴迷。我开发了一个Claw,专门负责打理我的智能家居,我给它取名叫Dobby精灵爪。

我让它去扫描家里局域网内的所有智能家居子系统,结果它竟然一次性就成功了,这让我挺意外的。我当时只是跟它说“我家好像有一套Sonos音响,你能试着找找它吗?” 然后它就对局域网内所有联网设备做了一次IP扫描。

它真的找到了Sonos音响系统,而且我发现这套系统居然没有任何密码保护。

Dobby直接登录进去,然后告诉我:“没错,你家确实装了这套Sonos音响。我来试着反向解析一下它的工作原理。” 接着它自动搜索了相关资料,找到了对应的API接口,然后问我:“要不要试试看?” 我当时心想“哇,你这就搞定了?”

我跟它说:“那你能不能试着在书房里播放点音乐?” 它照做了,很快书房里就传出了音乐声。我简直不敢相信这是真的。

之后我又让它用同样的方法连接了家里的灯光系统。它相当于破解了这些设备,弄清楚了整套控制逻辑,编写了对应的API,还搭建了一个控制面,我可以在这个面板上看到家里所有灯光的控制中枢。通过这个面板,我能直接开关家里的灯。

我还设置了语音指令,比如跟它说“Dobby,该睡觉啦”,它就会自动把所有的灯都关掉。现在,家里的灯光、空调、百叶窗、泳池,还有安防系统,全都由它来掌控。

我在家门口装了一个监控摄像头,只要有人靠近,就会触发一个Qwen模型来分析监控画面。具体流程是这样的:首先触发画面变动检测,然后系统会把画面传给Qwen模型进行识别,识别完成后,Claw会通过WhatsApp给我发一条消息,附上门口的监控截图,比如告诉我:“嘿,快递车刚停在门口,你可能需要去取一下快递。”

有时候它还会提醒我“你有一封新邮件”之类的。这些消息都是Dobby直接发给我的,真的太神奇了。

现在,Dobby全权负责家里的一切,我只需要通过WhatsApp给它发消息就行。

通过这些宏观指令来管理家务,真的特别方便。不过我目前还没有进一步开发它的其他功能,我知道现在很多人都在用Claw做更炫酷的事。但对我来说,光是这套智能家居自动化系统就已经帮了大忙,我以前要管理六个不同的智能家居控制软件,现在有了Dobby,我再也不用打开那些软件了,直接用自然语言给它下指令就行。这简直太好用了。

我觉得这个应用场景的潜力还没有被完全挖掘出来,但它现在带来的便利和启发,已经让我非常惊喜了。

主持人你觉得这是不是从用户体验的角度,反映出了人们对软件的真实需求?毕竟一直以来,人们很容易忽视学习新软件、适应新界面,其实是要付出很多精力的。

卡帕西:在某种程度上,确实是这样。这其实是在从人们对人工智能的预期出发,反向推导产品形态。

因为人们心目中的人工智能,和大语言模型的原始形态完全不是一回事。原始的大语言模型本质上只是一个token生成器,核心功能就是输出文本。

但在普通人的想象里,人工智能应该是一个有独立人格的存在:你可以跟它说话,它能记住你说的话,就像一个藏在WhatsApp背后的智能实体。这样的设定显然更容易被人们理解和接受。

所以从某种意义上说,现在的智能体开发,就是在努力匹配人们对人工智能的预期。但在这背后,其实需要大量的技术细节支撑。原始的大语言模型还太过基础,远远达不到人们心中“人工智能”的标准。

主持人你把家里六个不同的智能家居控制软件整合在一起,这也引出了一个更深层的问题:人们真的需要我们现在开发的这么多软件吗?

卡帕西:我觉得,应用商店里那些智能家居控制软件,在某种意义上其实根本就不该存在。这些设备本来就应该只提供API接口,然后让智能体直接对接这些接口进行控制。

这样一来,智能体就能实现很多单个软件根本无法实现的复杂智能家居场景。从这个角度来说,现在市面上确实充斥着太多定制化的小众应用,这些应用其实完全没有存在的必要。

再举个例子,我家跑步机也有一个配套的控制软件。我本来想统计自己的有氧运动频率,但我实在不想每次都登录那个网页端界面,然后一步步操作。这些设备本来就应该直接开放API接口。这其实就是在朝着智能体优先的网络生态或者说智能体优先工具的方向发展

我认为,整个行业需要从多个层面进行重构。

未来,软件的服务对象可能不再是人类,而是代表人类行事的智能体。这种重构在某种意义上,可能会带来翻天覆地的变化。

有时候会有人提出疑问:难道我们真的要让普通人去编写这些智能体的控制代码吗?都去做这些技术操作吗?

但我觉得,这只是当前技术发展阶段的产物。

现在确实需要编写一些代码,我自己也在研究和调试相关的系统。我相信,用不了一两年或者三年,这些操作都会变得免费且简单。这会成为一项基础技能,甚至是所有人工智能的标配功能,就算是开源模型也能轻松实现。

我觉得,未来使用智能体的门槛会越来越低。智能体本质上就是一个代表你执行任务的智能软件,Claw会自主运行,自主解决遇到的问题,最后只给你呈现一个简洁的交互界面,你只需要用自然语言给它下达指令就行。

主持人你为什么没有进一步开发Claw的个人用途呢?是因为你现在专注于更重要的项目,比如autoresearch之类的?还是说你现在正专注于打磨技术?

卡帕西:主要是因为我现在太忙了,各种事情让我分身乏术。我只花了一个星期的时间研究Claw的家庭应用,还有一大堆待办事项没来得及处理。

而且说实话,最近各种新工具层出不穷,大家都忙着研究这些新工具,根本停不下来。

其实我还没有把Claw和邮箱、日历这些工具整合起来。我现在对Claw的安全性还有些顾虑,毕竟这项技术还比较新,不够成熟;另一方面也是出于隐私考虑,我暂时还不想让它完全接入我的数字生活。

关于autoresearch

主持人你之前提到过,你一直希望智能体能够承担模型训练乃至模型优化这类任务。那么,autoresearch的研发初衷是什么?

卡帕西:我之前发过一条推文,大意是说,想要充分利用现有的各类工具,就必须打破自身的局限。你不能总停留在手动输入下一条指令的阶段,而是要彻底从流程中抽身,将整个系统设置为完全自主运行的模式。核心目标就是最大化token吞吐量,同时让人类脱离智能体的工作闭环。

人类只需要偶尔输入少量token,智能体就能代我们完成大量工作。

这条推文反响不错,但我觉得大家或许并没有深入思考这背后的深层意义。对我而言,autoresearch就是这一理念的具体实践。

我不想再作为研究人员被束缚在工作闭环里,比如时刻盯着实验结果之类的,这样做只会拖慢整个系统的进度。所以关键问题在于:如何重构所有抽象层,让人类只需要完成一次系统设置,之后按下启动键就能静待结果。

我们的核心目标,就是让更多智能体在无需人类干预的情况下,长时间自主运行并代我们完成任务

autoresearch的逻辑很简单:设定一个目标、一个评估指标,再明确智能体的行为边界,剩下的就交给它自主完成。

主持人你对它的实际效果感到意外吗?

卡帕西:我完全没料到它能奏效。以及有人对我为什么要训练GPT-2这类模型,也不太理解。

但对我来说,训练大语言模型就像是一个绝佳的实验场,我真正感兴趣的是递归式自我优化,也就是大语言模型到底能在多大程度上实现自我改进。

显然,这也是所有顶尖实验室的研究重点,他们都在致力于实现大语言模型的递归式自我优化。对我而言,这个项目就是探索该方向的一个小试验田。

二十年来,我训练过的模型没有上千也有数百个,做过无数次实验,尝试过各种超参数调优方法,我本以为这个项目的参数已经调得相当完美了,但我让autoresearch系统运行了一整晚之后,它给出的调优方案还是让我眼前一亮。

我之前竟然忽略了值嵌入的权重衰减问题,而且参数也没有调校到最佳状态,这些参数之间其实是相互影响的,调整其中一个,其它参数很可能也需要随之调整。

说到底,人类才是整个流程的瓶颈。

超参数调优、结果分析这些工作,根本就不应该由人类来做。既然有明确的客观评估标准,我们只需要搭建好系统,让它自主运行下去就好。这只是autoresearch的一种初级形态,一个单一的优化循环,目标是实现模型的自我改进。

让我惊讶的是,即便项目的参数已经相当完善,系统还是找到了优化空间。要知道,这还只是单一循环的效果;那些顶尖实验室可是手握数万张GPU组成的算力集群。

不难想象,在小规模模型上实现的这些自动化流程,完全可以进一步扩展应用。

顶尖智能水平的突破,核心都和外推与Scaling laws有关,我们可以先在小规模模型上完成大量探索性实验,再将研究成果外推应用到更大规模的模型上。

主持人所以你的意思是,如果我们能把这种实验方式做得更完善,autoresearch不仅能提升研发效率,还能为模型的规模化升级指明更清晰的方向?

卡帕西:没错。我认为目前最有意思、也最可能是顶尖实验室正在攻关的方向是,在小规模模型上开展实验,尽可能实现研究流程的自动化,让研究人员彻底脱离工作闭环。

说实话,研究人员往往过于自信,很多时候他们其实并不清楚自己在做什么,真的不应该直接插手这些具体的实验操作。我们需要彻底重构整个研究体系,当然,研究人员可以提供思路,但不应该亲自去执行这些想法。

理想的模式应该是这样的:先建立一个研究思路列表,一方面可以由自动化科研系统基于所有学术论文和GitHub代码库自主生成研究思路,另一方面研究人员也可以主动贡献想法。

之后,由智能体从中提取思路并开展实验,任何验证有效的成果都会被纳入开发分支。可能会有专人负责监控开发分支的进展,并适时将成果合并到主分支中。

总而言之,就是要将人类从所有流程中剥离出去,实现最大化的自动化同时提升token的处理效率。这需要我们重新思考所有的抽象层设计,对整个系统进行彻底重组。所以说,这个方向真的非常令人兴奋。

主持人我们不妨再深入一层思考,什么时候模型能写出比你更出色的program.md?

卡帕西:所谓的program.md,其实是我为了描述autoresearch系统的工作流程,随手写的一份粗糙文档。里面大概就是“先做这个,再做那个,尝试这些思路”之类的内容,还列举了一些研究方向,比如探索模型架构、优化器改进等等。这份文档是用Markdown格式写的。

你说得很对,一个autoresearch循环的效果,很大程度上取决于它的流程文档。不同的program.md会带来截然不同的研究进展。从这个角度来说,每个研究机构的运行模式,本质上都可以用一份program.md来定义。

研究组织是一组描述所有角色以及整个体系如何关联的Markdown文件。不同的研究机构可以有不同的代码化流程:有的可以少开站会,有的可以多开;有的可以更偏向风险探索,有的则可以更保守。我们完全可以构建多个代码化的虚拟研究机构,然后通过优化它们的代码,来提升研究效率。

所以说,在这之上,必然存在一个meta优化层。

主持人你看到我之前发的关于竞赛的想法了吗?我的设想是,让大家各自编写不同的program.md,然后在相同的硬件条件下,比拼谁的文档能让系统实现最大幅度的性能提升。之后,我们可以把所有参赛文档的数据汇总起来,让模型学习,这样它就能写出更优质的program.md了。

卡帕西:我们可以全面分析所有性能提升的来源,然后思考如何修改program.md,才能让系统更多地探索这些有效的优化方向?又该如何规避那些无效的尝试?

我觉得这是个非常棒的想法。不过,我们或许可以一步一步来:先搭建一个自动化流程,再拓展到第二个、第三个…… 这就像剥洋葱一样,是一个层层递进的过程。

比如,曾经大语言模型的底层服务是需要我们费心搭建的;现在,智能体技术已经成为了默认配置;如今,像Claw这类工具也已经被广泛接受。我们现在不仅能部署多个智能体,还能向它们下达指令,甚至对指令进行优化。整个领域的发展简直日新月异。

正因如此,我才会陷入这种痴迷的状态。

关于大语言模型的几点注意事项

主持人既然我们已经明确,各个领域都应该努力构建这种“人类脱离闭环”的自动化循环,而且这种模式确实行之有效,那么当下最关键的技能是什么?性能工程这类传统领域,未来还有存在的价值吗?

卡帕西:我想说的是,在这种对大语言模型的痴迷之外,我们还需要注意几个关键点。

首先,这种自动化模式只适用于目标明确、评估指标易于量化的任务。比如,为模型的各个模块编写更高效的CUDA核心代码,就是一个完美的应用场景。

我们的目标很明确:在保证代码功能完全一致的前提下,提升运行速度。这类任务非常适合用autoresearch来解决。

但很多其他任务并不满足这个条件,如果一个任务连评估标准都无法明确,那它就根本不适合自动化研究。这是第一个关键点。

其次,虽然我们已经看到了未来的发展方向,但当前的技术体系其实还不够成熟,存在不少漏洞,远没有达到完美运行的状态。如果过于急功近利,试图一步到位,最终很可能会得不偿失。

和AI聊天的时候,我经常得自己面前坐着的既是一个精通系统编程的天才博士生,又像是一个天真的十岁小孩。这种感觉真的很奇妙。

智能体的能力断层感要比人类严重得多。有时候我让它实现某个功能,它反馈的结果却完全跑偏,然后我们就陷入一个又一个错误的循环。

你明明能感受到它的强大,可它又总是半途而废,这种情况直到现在也还是会发生。

如果让我来推测背后的原因,我觉得核心问题在于这些模型都是通过强化学习训练出来的。它们现在面临的困境,其实和我们刚才讨论的问题如出一辙:实验室只能优化那些可验证、有明确奖励机制的任务。比如“代码有没有编写正确”“单元测试能不能通过”,这些都有明确的是非答案。

但智能体的短板在于,它们很难捕捉到我指令里的细微意图,也不知道该在什么时候主动提出疑问来澄清需求。简单来说,任何需要“软性判断”的任务,它们的表现都会大打折扣。

所以智能体的能力就像被分成了两部分:一部分是在既定框架内的超智能表现,另一部分则是脱离可验证范围后的失控状态。一旦超出验证边界,它的执行过程就会变得毫无章法。

换个说法,你现在去让最先进的ChatGPT这类模型讲个笑话,你知道它会给你讲什么吗?

显然,所有大语言模型都最爱讲这个笑话:Why don’t scientists trust atoms?Because they make up everything.

这个笑话三四年前就已经烂大街了。

你看,尽管模型的性能已经有了质的飞跃,给它一个智能体相关的任务,它能不眠不休地帮你搞定各种难题;可一旦让它讲个笑话,它翻来覆去还是那个五年前的冷笑话,简直糟糕透顶。

这背后的原因很简单,讲笑话这类任务不在强化学习的优化范围内,不属于模型被重点改进的方向。这恰恰体现了智能体的能力断层。

主持人这是不是意味着,模型并没有实现真正的泛化能力?也就是说,“代码层面的智能”并没有转化为“讲笑话层面的智能”?

卡帕西:我认为这是一种能力解耦现象。模型的能力可以分为两类:一类是可验证的任务能力,另一类是不可验证的任务能力。实验室会根据训练数据的侧重,选择性地优化某些能力,而另一些能力则会被忽略。

这种能力迁移的现象可能已存在,但程度远远达不到令人满意的水平。

主持人其实人类身上也存在这种能力参差。一个数学天才,讲起笑话来可能也很无趣。

卡帕西:模型存在很多能力盲区,有太多领域的能力没有被纳入优化范围。而这一切都隐藏在这些黑箱的神经网络模型里。

所以模型的能力呈现出两极分化的状态:在训练目标范围内,它的效率高得惊人;可一旦超出这个范围,就会立刻拉胯。这就是我所说的能力断层。

正因如此,尽管我们清楚地知道技术未来的发展方向,却还不能完全放手让模型自主运行。要么是因为模型本身还不成熟,要么就是因为我们还没找到正确的使用方法。具体是哪种原因,现在还很难判断。

主持人如果这种能力断层会一直存在,而且目前所有能力都被整合在单一的通用模型,这种模式真的合理吗?我们是否应该将模型解耦,拆分成多个专注于不同领域的专家?

卡帕西:目前我的观察是,各大实验室都在追求打造一个通用模型,试图让一个模型掌握所有领域的智能,并将所有能力都塞进模型参数里。

我认为,未来的智能体应该会出现更多物种分化,就像动物界的大脑结构一样,存在着极其丰富的多样性。不同的动物会进化出高度发达的视觉皮层或其他脑部结构,以适应不同的生存环境。

这种分化其实已经初现端倪,我们可以打造出体积更小的模型,它们依然具备核心认知能力,同时又能在特定任务上实现专精,进而在延迟、吞吐量等指标上实现更高的效率。

比如我了解到,已经有一些模型专门针对Lean定理证明这类数学领域做了优化。未来这类领域专用模型的案例肯定会越来越多。

主持人算力基础设施的限制,会不会加速这种模型分化的趋势?毕竟效率在这种情况下会变得更加重要。

抛开资金因素不谈,如果我们拥有无限算力,那肯定会倾向于使用通用模型;但如果我们面临算力压力,无法为所有应用场景都部署超大模型,你觉得这会不会倒逼模型走向分化?

卡帕西:我觉得,目前我们还没有看到太多模型分化的迹象,整个行业还是处于倾向于通用模型的阶段。

我认为根本原因在于,实验室开发的模型需要应对终端用户的所有可能需求,所以不得不追求全能性。但如果是和企业合作,针对特定问题开发模型,那么领域专用模型的案例肯定会增多。

未来也一定会出现一些高价值的小众应用场景,催生出对应的专用模型。

不过目前来看,整个行业还是在追求覆盖所有能力的通用模型。这在一定程度上也是因为,我们对智能体的操控技术还没有完全成熟。

主持人:你说的“操控技术”具体指什么?

卡帕西:举个例子,如何在微调模型时不损失原有能力,就是一个亟待解决的问题。

目前我们对智能体的交互还局限于上下文窗口,这种方式简单且成本低廉,也是我们实现模型定制化的主要途径。

但我认为,我们需要发展出更深度的模型调整技术,比如持续学习、特定领域的精准微调、权重的直接修改等,而不是仅仅停留在上下文窗口的层面。

相比调整上下文窗口,直接修改模型权重的难度要大得多,因为这相当于从根本上改变整个模型,甚至可能影响它的核心智能。

所以从这个角度来说,模型分化的技术体系其实还没有完全成熟。

关于开放协作平台的构想

主持人结合这个背景,我还想问问autoresearch的延伸方向——开放协作平台。你说过,我们需要为autoresearch打造更多协作界面,让更多人能够参与到研究中来。能具体聊聊这个设想吗?

卡帕西:我们之前讨论的autoresearch,其实只是一个单线程的优化循环。智能体在一个闭环里不断尝试优化模型。但这个技术真正有趣的地方,在于它的并行化扩展潜力。

我最近确实在尝试一些相关的想法,但目前还没有找到一个足够简洁、能让我完全满意的方案。这是我在Claw项目之外,一直在私下推进的工作。

我的初步构想是:如果我们拥有大量可并行的计算节点,那么让多个autoresearch智能体通过一个公共系统协同工作,其实是很容易实现的。

但我更感兴趣的是,如何让互联网上不受信任的算力节点集群也能参与进来。

举个例子,在自动化研究中,我们的目标是找到能将模型验证损失降到最低的代码。如果有人从互联网上提交一个候选代码版本,我们其实能很轻松地验证这个版本是否有效。

当然,验证过程本身可能需要投入不少工作量,而且提交者也可能会谎报结果。

简单来说,我们需要搭建这样一套系统:让不受信任的算力节点集群,与负责验证的受信任节点集群协作;整个系统是异步运行的,而且从安全角度来说是可靠的。

要知道,如果随便运行互联网上提交的代码,风险是非常高的。但从理论上来说,这套系统完全是可以实现的。

你应该听说过SETI@home和Folding@home这类分布式计算项目吧?它们的架构和这个思路很像。

以Folding@home为例,它的目标是模拟蛋白质折叠,找到能量最低的稳定结构。这件事的探索成本极高,但如果有人提交了一个候选结构,验证它是否是低能量状态却很容易。

很多问题都有这个特性:提出解决方案的成本很高,但验证方案的成本很低。所以对于这类问题来说,像 Folding@home、SETI@home,或者我设想的autoresearch@home,都是非常合适的模式。

简单来说,未来有可能出现这样一种局面:互联网上的智能体集群协同工作,共同优化大语言模型,甚至有可能超越那些顶尖实验室。谁知道呢?这种可能性是存在的。

毕竟顶尖实验室掌握的是大量可信算力,但整个地球的非可信算力资源要庞大得多。如果我们能建立一套完善的机制来管控风险,那么分布式智能体集群完全有可能开发出更优的解决方案,人们也可以贡献自己的算力,参与到自己关心的研究项目中。

最后我还想补充一点,未来企业或机构可以围绕自己关注的研究方向,搭建专属的autoresearch分支。任何人只要有闲置算力,都可以选择加入不同的研究分支,比如你关心迁移学习这类方向,就可以贡献算力支持相关项目。

如果所有研究任务都能被整合到分布式autoresearch平台中,算力就会成为人们贡献给科研池的核心资源。

主持人这太鼓舞人心了。而且至少有一部分人已经重新意识到,拥有个人算力是一件极具价值的事。或许他们正是为了搭建自己的Claw,才产生了这样的动力。

卡帕西:金钱曾是所有人关注的核心,但未来,FLOPs会成为所有人真正在意的东西吗?会不会出现一场算力革命,颠覆我们对核心资源的认知?

比如现在,就算你有钱,也很难买到算力。从某种意义上来说,算力似乎已经占据了主导地位。未来,人们衡量实力的标准,会不会从“你拥有多少财富”变成“你掌控多少算力”?

我其实并不完全认同这个观点,但这个设想确实很有意思。

Q:你之前发布过一份就业数据分析,即便你只是把公开数据做了可视化,还是戳中了很多人的敏感点。你当时到底对什么问题感到好奇?

卡帕西:我想,所有人都在思考人工智能对就业市场的冲击,以及未来的就业格局会变成什么样。我也一样,只是想看看当下的就业市场到底是什么样的:不同的岗位分布如何,各个职业的从业人数有多少。

我很想逐个分析这些职业,然后自己去思考:随着人工智能技术的发展,这些AI最终会成为从业者的辅助工具,还是会取代这些职业?当下的这些职业未来会发生怎样的变化?是会大规模扩张、转型,还是会催生出全新的职业?

说白了,这只是我梳理自己对行业思考的一种方式。我用的就业数据,全部来自美国劳工统计局。他们甚至对每个职业未来近十年的就业增长预期做了预测,这份预测是2024年发布的。

没错,他们已经给出了这些预测。不过我并不完全清楚他们的预测方法论。

我个人的看法是,目前人工智能的发展主要集中在数字领域,这些AI就像游走在数字世界里的“幽灵”,可以在数字空间里交互,处理海量数字信息。

但它们目前还没有实体形态,物理世界的智能化进程可能会慢一些 。

当前,数字信息处理领域其实存在着巨大的潜力空间。过去这些工作主要由人类和传统计算机完成,而现在,人工智能作为第三种数字信息处理主体加入进来,这会让相关领域发生大规模的重构。

而物理领域的变革,会比数字领域晚一段时间。这也是我为什么会重点关注那些以处理数字信息为核心的职业,比如那些可以居家办公的岗位。

我认为这些职业会率先发生显著的变化。

这并不意味着这类岗位的数量会增加或减少,因为这最终取决于需求弹性等诸多因素。但这些职业的工作模式,必然会因为这些新工具发生改变。

主持人基于你对这些数据的研究,对于正在面临就业市场选择、或是在思考当下该学习什么、培养什么技能的人,你有什么观察或建议吗?

卡帕西:我觉得很难给出统一的答案,因为就业市场本身极其多元,不同的人会有完全不同的选择。但有一点是确定的,这些工具出现的时间很短,但能力极强。所以首要的事,就是努力跟上技术的发展。

我知道很多人会无视它,或是害怕它。但当下,它本质上是一个能赋予人能力的工具。所有的工作都是由一系列任务组成的,而这些工具能让其中很多任务的效率大幅提升。所以人们首先应该把它当成一个工具来看待。

至于它的长期影响,说实话,这件事真的很难预测,这也不是我的专业领域,这本该是经济学家去研究的事。

主持人有个现象我觉得很有意思,市场对工程师岗位的需求还在持续增长。我不确定这是不是暂时的现象,也拿不准自己的判断,你怎么看?

卡帕西:这本质上是因为,过去软件是稀缺的。我们对软件的需求没有被完全释放,开发软件的成本太高了。

如果开发软件的门槛降下来,就会触发杰文斯悖论:软件的需求反而会大幅上涨。因为它变得更便宜、更强大了。

关于这个悖论,最经典的例子就是ATM机和银行柜员。曾经很多人担心,ATM机和计算机的普及会取代银行柜员。但实际情况是,ATM机大幅降低了银行网点的运营成本,银行开设了更多网点,最终银行柜员的数量反而增加了。

这就是杰文斯悖论的核心,当一件商品的成本大幅降低,就会释放出海量的潜在需求。

所以对于软件工程行业,我持谨慎乐观的态度。我认为市场对软件的需求本身就极其庞大,而现在软件的开发成本大幅降低了。至少在未来相当长的一段时间里,市场对软件的需求只会越来越大,因为软件本身就拥有无限的可能性。

你想想,数字信息处理这件事,你不必被迫使用那些交付给你的、存在各种缺陷的工具,也不必被迫接受市面上已有的产品。代码不是一成不变的,它可以被修改、被重构。

所以我认为,未来数字空间会迎来一场全面的底层重构,而这会催生出海量的相关需求。

当然,从长期来看,即便是OpenAI、Anthropic这些顶尖实验室,他们也只雇佣了大概一千名左右的研究员。而这些研究员,本质上正在亲手把自己的工作自动化,这就是他们正在努力做的事。

主持人这些研究员里,很多人也陷入了那种对AI的痴迷状态,对吧?因为他们亲眼看到技术真的在生效。

卡帕西:没错。我之前在OpenAI的时候,就跟他们讨论过:“你们有没有想过,如果我们真的成功了,我们就都失业了?我们本质上就是在给董事会、给CEO打造一套自动化系统,最后我们自己都没活干了,顶多只能在旁边打打下手。”

从这个角度来看,这件事确实挺让人不安的。

为什么不加入顶尖实验室?

主持人我能问一个比较直接的问题吗?你完全可以加入一家顶尖实验室,和同事们一起,用海量的规模化算力做autoresearch。可你为什么选择离开呢?

卡帕西:我在那里待过很长一段时间。所以在某种程度上,我认同你说的。这个问题可以从很多角度来解读。

首先,我坚信,人们在顶尖实验室之外,依然能做出巨大的贡献、产生深远的影响,不仅是在行业内,更是在生态层面。比如你的角色,更多是在生态层面;我现在的角色,也更多是在生态层面。我非常认可人们在这类角色中能创造的价值。

反过来讲,在我看来,和顶尖实验室过度深度绑定,也确实存在一些问题。

本质上,加入这些顶尖实验室,你会获得巨大的经济激励。但同时,你自己也承认,你正在研发的人工智能,会以极其剧烈的方式改变人类和整个社会。可与此同时,你却在为这些机构开发可能存在缺陷的技术,并从中获利,还与它们绑定了紧密的利益关系。

这恰恰是OpenAI创立之初最核心的困局。我们当初成立它,就是为了解决这个难题。所以说,这件事…… 怎么说呢……

身处顶尖实验室之中,你不再是一个完全自由的个体,无法以完全自主、独立的姿态参与到相关的公共讨论中。有些话你不能说,反过来,机构会希望你说一些特定的话。

当然,他们不会强迫你,但你会感受到无形的压力,清楚自己“应该”说什么,对吧?

毕竟,要是不这么做,就会陷入极其尴尬的对话,引来旁人的侧目,大家心里都在犯嘀咕:你这是在干什么?

所以你根本没法做一个真正独立的个体。而在顶尖实验室之外,我能更坚定地站在人类整体的立场上,因为我几乎不用承受那些压力,可以畅所欲言。

当然,我也承认,在顶尖实验室里,你同样能产生巨大的影响力。有很多研究员,有着非常出色的想法,行业里有太多关键决策需要制定,你会希望自己能身处决策现场,参与到这些核心对话中。

我也认为,目前这件事整体的风险还不算高,所以一切都还处在相对平和的状态。

但说到底,当风险真正升级的时候,作为机构的一名雇员,你到底能对机构的决策产生多大的影响力?最终,机构的根本走向,其实并不由你掌控。你可以坐在会议室里提出想法,但你并不是这个机构的实际掌控者。

我认为在某种程度上,这就是造成立场错位的根源。

不过我也非常认同一种观点,说白了,这些顶尖实验室是不透明的,大量的研发工作都在内部进行,他们站在技术能力的最前沿,探索着下一代技术的边界。如果你身处顶尖实验室之外,你的认知和判断,本质上会不可避免地出现偏差,因为你根本接触不到下一代技术的研发进展。

我认为,和行业真实的技术前沿保持接触、真正身处顶尖实验室之中,是有价值的。如果有顶尖实验室愿意邀请我,让我在一段时间里为他们做一些实质性的研发工作,那或许……

我觉得这或许是一种很好的模式。因为在我看来,这既能让我和行业真实的技术进展保持联结,又不会完全被这些机构所束缚。

说实话,在我看来,任何人在OpenAI都能做出极其出色的工作,但一个人最有影响力的成果,也完全有可能诞生在 OpenAI之外。

实验室之外有太多可以做的事。我认为最终,最理想的模式或许就是在两者之间来回切换。本质上,在这两个地方,你都能产生极其深远的影响力。

所以这件事非常复杂,我也说不清。这个问题本身分量很重,很难简单给出答案。我曾加入过顶尖实验室,现在身处局外,未来或许也有可能再次加入。这就是我对这件事的看法。

关于开源与闭源

主持人开源模型和前沿闭源模型的差距到底有多大?这种差距又是否能长期维持?

卡帕西:简单来说,目前闭源模型依然处于领先地位。现在最新的差距大概只有6到8个月了。

显然,我是开源的坚定拥护者。

在操作系统领域,有Windows、macOS这样的闭源大型软件项目,这和未来大语言模型的发展轨迹很像;同时也有Linux,而Linux是一个极其成功的开源项目,目前全球绝大多数的计算机都在运行Linux系统,我记得最新的数据大概是60%左右。

这背后的核心原因是,行业需要一个所有人都能放心使用的通用开放平台。一直以来,行业对这类项目都存在着强烈的需求,现在的大语言模型领域也是如此,这也是行业对这类开源项目存在真实商业需求的原因。

但最大的区别在于,大语言模型的研发是极度资本密集型的,需要投入海量的资金。这也是开源模型的发展会遇到阻碍、难以和闭源模型抗衡的核心原因。当然,我也认为目前的开源模型已经做得非常出色了。

还有一个非常有意思的现象:对于绝大多数消费级应用场景来说,即便是当前的开源模型,能力也已经完全够用了。我认为再过几年,绝大多数基础应用场景不仅能被开源模型完美覆盖,甚至还能实现本地运行。

但市场永远会对前沿智能存在需求,而这部分需求,很可能会占据市场的绝大部分份额。

对前沿智能的需求,往往集中在诺贝尔奖级别的科研工作,或是“将Linux系统从C语言迁移到Rust语言”这类大型项目上。

未来,顶尖的闭源前沿智能,大概率会主要服务于这类大型复杂项目;而开源模型,会逐步覆盖绝大多数基础应用场景。

毕竟,今天的前沿技术,大概率今年年底就会走进开源领域。我现在从闭源实验室用到的前沿能力,未来很可能会变成开源模型的标配,承担起绝大多数的实际工作。

所以我认为,这种格局会长期持续下去,闭源AI,始终保持领先;而开源模型,会一直保持着几个月的差距,紧随其后。

我其实认为,这种整体格局是相当健康的。因为我对完全闭源的智能体系始终抱有顾虑。从结构上来说,我认为完全闭源的智能,会带来一定的系统性风险。

不过我也得说,即便是在闭源那一侧,我感觉最近反而在进一步集中化。很多领先者其实未必是真正的顶级玩家,所以从这个角度看,这并不理想。

我由衷地希望能有更多的参与者跻身前沿赛道。因为我天生就对高度集中的模式抱有警惕:我希望有更多人能参与到核心决策中。

在机器学习领域,集成模型几乎总是优于任何单一模型。同理,面对那些最棘手的难题,我也希望能有更多不同背景的人共同思考。我不希望未来变成关起门来只有两三个人拍板的局面,那不是一个好的未来。

总结来说,我由衷地希望能有更多实验室跻身前沿赛道。我始终认为,开源模型有其不可替代的价值,我希望它能一直发展下去。

主持人:过去几个月,机器人行业也发生了翻天覆地的变化,环境与任务的泛化能力实现了惊人的飞跃,长周期任务的处理能力持续提升,海量资金涌入这个赛道。你觉得机器人的爆发期真的要来了吗?

卡帕西:我的看法,很大程度上源于我在自动驾驶领域的所见所闻。我始终认为,自动驾驶是第一个真正落地的机器人应用场景。

十年前,自动驾驶赛道涌现出了大量初创公司,但最终绝大多数都没能长期存活下来。我亲眼见证了这个行业需要投入多么巨额的资本,需要熬过多么漫长的研发周期。

而机器人行业,本质上难度更高、场景更复杂混乱,需要海量的资本投入和极其坚定的长期信念。这是一个极其庞大的难题,落地难度极大。

所以我认为,机器人行业的发展,一定会滞后于数字空间的变革。在数字空间里,我们即将迎来一场全面的效率释放。

但我觉得最有意思的,是两者之间的交互接口。如果未来有越来越多的智能体代表人类行事,智能体之间可以相互沟通、完成任务、甚至参与到智能体经济体系中,那么纯粹的数字空间任务终有被耗尽的一天。

到了某个节点,你必须走进现实世界,向现实世界提出问题,必须通过实验来获取现实世界的反馈,才能学到新的知识。

当下我们还有海量的数字化工作可以做,因为对于已经完成数字化的信息,我们的整体挖掘深度还存在巨大的潜力空间。毕竟,人类的思考算力有限,根本不足以处理所有已经数字化、上传到网络中的信息。

但终有一天,这些已上传的数字化信息会被挖掘殆尽。你会读完所有的论文,处理完所有的数据,得出所有可尝试的研究思路。

我其实并不认为,一个完全封闭、只靠投喂固定信息的智能体,能实现真正的无限智能。

所以我认为,未来的发展会分为三个阶段:

首先,数字空间会迎来全面的效率释放,这里面有海量的工作可以做。

之后,变革会延伸到数字与物理世界的交互接口,也就是感知现实世界的传感器,和改造现实世界的执行器。我认为未来很多极具潜力的公司,都会诞生在这个交互赛道上 。核心问题就是,我们能否为超级智能投喂现实世界的数据,又能否让它根据输出的指令,真正操控物理世界。

而物理世界本身,无论是整体市场规模,还是可落地的工作体量,都极其庞大,甚至可能远超数字空间。所以我认为,这里其实蕴藏着更大的机遇。

但我必须强调,这件事的工作量极其巨大。在我看来,操控原子比操控bit要难上百万倍。

行业的发展大概率会遵循这个轨迹:当下,数字空间是我的核心关注方向;之后,数字与物理的交互接口会迎来爆发;最终,物理世界的全面智能化,会在属于它的时代到来,而一旦到来,就会掀起颠覆性的变革。

主持人:这个分析框架也很有意思。因为即便在当下的应用开发领域,有些事其实已经变得很简单了。

就拿物理世界的读写来说,“读”靠传感器、摄像头这类设备,已经有大量成熟的硬件了。只要思路足够灵活,你完全可以用很低的成本,大幅提升智能体的能力,或是获取大量有价值的新数据,根本不需要巨额的前期投入。

卡帕西:我可以举几个我亲眼见到的例子。我一个朋友他们正在做的事,就是材料科学领域的自动化研究。

在这个场景里,为智能体提供现实数据的“传感器”,就是造价不菲的实验室设备。生物工程领域也是如此,很多人都对生物工程研发的自动化抱有极大的热情,而这里的“传感器”,早已不只是摄像头这么简单。

另外我还看到,有一些公司正在做这样的事:你可以通过程序化的方式,付费让普通人提供训练数据,喂给这个庞大的智能巨系统。这些,本质上都是广义上的“传感器”,只是呈现形式千差万别。

说实话,我很意外现在居然没有成熟的信息交易市场。

有一本很有启发性的科幻小说叫《守护程序》(Daemon),或许你读过。书里的智能体最终在某种程度上,几乎像提线木偶一样操控着人类——人类成了它的执行器,也成了它的传感器。

我认为,整个社会的形态会因此发生重构,去适配这种智能体系的需求。最终整个行业会集体走向这个方向:自动化程度越来越高,智能体系会产生新的需求,而人类会去满足这套机器的需求。

关于microGPT&教育

主持人:在我们结束之前,想聊聊你做的一个小型副业项目。和我们说说microGPT吧。

卡帕西:关于microGPT,其实我有一个持续了一二十年的执念,就是把大语言模型不断简化,剥离到只剩最核心的本质。

这些年我也做了很多相关的项目,比如minGPT、micrograd等等。

要知道,训练神经网络,尤其是大语言模型,通常需要海量的代码。但这些代码的复杂度,几乎都来自于效率优化。如果你不追求运行速度,只关心核心算法,那么整个算法其实只用200行Python代码就能写完,可读性极强,连注释算进去都绰绰有余。

整个代码的构成非常简单:首先是文本数据集;然后是神经网络架构,这部分只用50行代码就能写完;接着是前向传播,再是计算梯度的反向传播;用来计算梯度的自动微分引擎,大概100行代码;然后是优化器,哪怕是Adam这种主流优化器,核心代码也就10行左右。

有意思的是,放在一年多以前,如果我做出了microGPT,我一定会想着给大家做讲解,比如拍一条逐行拆解的视频,写一份详细的入门指南。但现在我意识到,这么做其实意义不大。因为这200行代码已经足够简洁,任何人都可以让智能体用各种方式给他讲解清楚。

我不再需要给人类做讲解,而是要给智能体讲明白。只要智能体理解了,它就能成为一个中转枢纽,用任何语言、无限的耐心,根据学习者的能力水平,把内容讲给人类听。

所以我一直在想,教育到底是什么?

以前的教育是课堂授课,是单向的知识灌输,但现在我觉得,与其直接教人类,不如先教给智能体。

我甚至可以提炼出一套“教学方法”,说白了就是告诉智能体,应该用什么样的逻辑去传授知识。比如针对microGPT,我可以设计一套专属的教学技能,明确告诉智能体,如果有人想理解这个代码库,应该按照什么样的顺序去讲解。

本质上,就是给智能体编写一份简易的教学大纲。

所以我觉得,未来直接面向人类的知识讲解会越来越少,取而代之的是先让智能体理解知识。只要智能体懂了,它自然会完成讲解的工作。

当然,现在我们还没完全达到那个阶段。我得承认,目前我讲解这些知识的能力,可能还是比智能体要强一些。但模型的进化速度实在太快了,我感觉自己在这方面的优势正在逐渐丧失。

举个例子,以前我开发一个代码库,必须要为人类用户编写详细的文档。但现在,我觉得完全没必要再写面向人类的HTML文档了,转而编写面向智能体的Markdown文档就够了。因为只要智能体能看懂,它就能把代码库的各个部分,用人类能理解的方式讲清楚。这就是一种通过智能体中转的知识传递模式。我相信,未来这种模式会越来越普遍。

就拿microGPT来说,我之前试着让智能体自己写出microGPT。我告诉它“把神经网络训练流程简化到极致,剥离到最核心的本质”,但它根本做不到。

microGPT是我多年执念的最终成果,就是这200行代码。我为这件事思考了很久,反复打磨了很久,这就是最简方案,相信我,不可能再简化了。这就是我能提供的核心价值。

其他的所有事,智能体都能理解。

它完全能看懂代码,也明白我为什么这么设计,但它就是无法原创性地想出这个方案。所以我的贡献,就是这一点点核心的东西。而后续所有的教育、讲解工作,都不再是我的核心领域了。

教育或许就是以这样的方式发生了改变:你只需要把你最笃定的核心内容、最优的讲解逻辑、那些智能体做不到的事,注入到课程体系里,这就是你当下的核心工作。

而那些智能体能做到的事,它很快就会比你做得更好。所以你必须想清楚,自己到底要把精力放在什么地方。

参考链接:
[1]https://x.com/saranormous/status/2035080458304987603
[2]https://x.com/cryptopunk7213/status/2035385904634699950?s=46&t=fzKJptGJMpr-yj3MUXd6HA

— 欢迎AI产品从业者共建 


📚「AI产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为AI行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。


一键关注 👇 点亮星标

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除