AI Agent 正在成为今年的 AI 新风口,不仅仅是从技术实现的角度,还有当下 AI 落地和收入角度的考虑。

吴恩达最近在多个场合分享了对于 AI Agent 的看法,他认为 Agent 的发展将会成为 AI 时代重要的力量,甚至比基础模型还要重要。

而根据 The Information 的消息,AI 巨头们——微软、OpenAI 和谷歌等,目前正在竞相把 AI Agent 引入各类场景——处理复杂任务,且几乎不需要客户的指导。目标很简单,将诸多客户对于 AI 的热情转换成收入,虽然 Chatbot 及 Code Copilot,但能解决更困难任务的产品,无疑才能带来更多收入。

文章整理自「阿法兔研究笔记」和「投资实习所」,Founder Park 有增删。


01

能执行复杂功能,

客户才愿意付钱

OpenAI、谷歌以及 Facebook 的所有者 Meta Platforms 各自正在开发自己版本的 Agent。这是行业当下的某种共识,旨在将 18 个月前 ChatGPT 引发的兴奋转变为更多的收入。虽然 Chatbot 以其生成逼真回答或向程序员代码提建议的能力赢得了商界的赞誉,但客户表示,能够自动完成更困难任务的软件将是公司获得更多营收的必要条件。

例如,微软正在开发软件来自动化多个操作,如根据客户的订单历史创建、发送和跟踪客户发票,或者用另一种语言重写应用程序的代码并验证其按预期工作,有员工表示, 这款新软件将由 OpenAI 的技术提供动力,将继续赋能微软现有的 Copilot 工具,比如说可以总结会议或起草电子邮件。微软计划在下个月的年度 Build 开发者会议上宣布部分新功能。

「我看到一些 AI 功能出现在电子邮件中,比如,『你想用 AI 重写这条笔记吗?』但这实际上并没有改变我的生活,」MongoDB 的首席执行官 Dev Ittycheria 说,MongoDB 是一个主要的数据库提供商。MongoDB 的员工和客户都在等待更好的功能,他们将在这些功能实现之前不会大量投资于 AI,他说:「Agent 工作流将是下一个重大突破。」

OpenAI 正在悄悄设计可以控制个人计算机并同时操作多种应用程序的计算机使用型 Agent,例如将数据从文档传输到电子表格。此外,OpenAI 和 Meta 正在研发第二类 Agent,这类 Agent 能够处理复杂的基于网络的任务,如创建行程和根据行程预订旅行住宿。

谷歌的核心人工智能团队 DeepMind 也在开发能处理复杂任务的 AI Agent。他们在 Adept 的联合创始人 Anmol Gulati 的协助下进行这些工作,Adept 是一家开发计算机使用型 Agent 的初创公司。

Adept 这家已筹集超过 4 亿美元资金的公司计划在今年夏天推出其计算机使用型 Agent 产品。Adept 的首席执行官David Luan 表示,该公司从零开始构建了AI系统,并通过分析人们在计算机上的工作视频(如创建 Excel 表格)来进行训练。Luan 指出,因此 Adept 的模型能够在计算机上执行类似人类的操作,例如在 Redfin 上浏览网页寻找房源或在客户关系管理系统中记录通话。


02

AI Agent 的起源和技术现状

随着「Agent」概念逐渐成为 AI 领域的热词,很多公司的高层在扩展和给 Agent 下定义时,不少定义让客户感到困惑。例如,有公司上周宣布了所谓的多种 Agent,实质上这些仅是 ChatGPT 等对话式聊天机器人的不同版本,它们被训练用于处理特定任务,比如提升客户服务的交互体验,但通常不涉及多步骤操作。

AI Agent 的想法最初在一年前兴起,当时开发者推出了两个基于大语言模型的开源 Agent。技术爱好者利用这些 Agent 创建了自动编写播客大纲或汇总商业竞争信息的演示。然而,当人们发现这些 Agent 远非完美后,初期的热情逐渐消退。开发者们发现,尽管这些 Agent 能够列出完成广泛目标所需的任务清单,但它们的执行效果良莠不齐,容易陷入重复的行为循环。

一些公司,如微软,没有推出最复杂的 Agent,而是在寻求推出可以逐步提升其现有软件版本自动化功能的 Agent。

今年早些时候,微软在云计算和 AI 的执行副总裁 Scott Guthrie 的领导下组建了一个新团队,目的是为公司的 Copilot 产品系列开发 Agent 功能。例如,微软正在其 Dynamics 销售应用中开发的一项即将推出的 Agent 功能,旨在主动建议应用程序可以执行的多步骤操作——这些是用户之前需要亲自指导 Copilot 执行的操作。

例如,该计划中的功能能检测到一个商业客户未完成的大宗产品订单,自动起草发票,并询问企业是否希望将该发票发送给下单的客户。随后,Agent 将自动跟踪客户反应和付款,并将这些信息记录在公司的系统中。

尽管微软研究部门的负责人 Peter Lee 去年已指示研究团队探索开发更复杂的 Agent 程序,例如 OpenAI 正在开发的计算机使用型代理,但微软的研究人员仍在努力解决如何防止代理程序失控、误删文件或在用户设备上执行其他有害操作的问题,一位微软员工表示。

软件程序员将可能是第一批体验高级 Agent 技术的专业人士,微软旗下 GitHub Copilot 做出了先行示范,这个工具能够在开发者编写代码时实时推荐代码行。

GitHub 的 CEO Thomas Dohmke 预示,来年 GitHub Copilot 将扩展更多功能。他表示,当开发者描述他们在代码库上遇到的问题后,一个 Agent 将审查这个问题,提出解决方案,并自动编写及执行相关代码。

GitHub首席执行官Thomas Dohmke 强调:「短期内我们将专注于开发能处理更大任务的 Agent,这将极大地辅助开发者完成各种工作。」

此外,如 Magic 和 Cognition AI 这类初创公司也因声称他们的编程 Agent 能够执行许多人类编程工作而受到关注,尽管这些声称还未经验证。

AI Agent 的技术新进展

最近的两项技术进步可能帮助 AI 提供商为更广泛的应用开发 Agent,如预约一周的约会、创建行程和地图,或使用来自各种数据源的信息准确填写表格。加州大学伯克利分校的计算机科学教授、AI 初创公司 Anyscale 和 Databricks 的联合创始人 Ion Stoica 表示,开发者正在变得更擅长使用大语言模型(LLMs)生成合成数据,这些数据随后用于训练其他模型。这在代码生成中尤其有帮助,开发者可以指导模型在一定参数内创造并解决问题。

Stoica 提到的第二项进步是「基础化」过程:这一过程涉及建立 AI 模型,这些模型能自动验证其他模型输出的有效性,例如测试模型生成的代码是否正确解决了当前的问题。

Stoica 补充说:「明年,我们预计在模型的问题解决和推理能力上将实现显著进步。这将依赖于基础化过程:如果我能自动确认一个输出是有效的,那么我就可以使用 LLM 本身来提升输出效果,这将是一个重大突破。」

尽管 Agent 技术尚未大规模推广,AI提供商及其客户仍在进行技术基础工作,以消除当前 Chatbot 常见的错误,这些错误阻碍了它们在企业中的应用。

Datadog 的首席执行官 Olivier Pomel 评论道:「即便你能达到 99% 的准确率,对于那些需要近乎完美精确度的应用来说,这仍然不够。」Datadog 是一家帮助公司监控其云应用性能的公司。

此外,基础化工作涉及到可以验证 AI 模型产出结果的软件。这与 OpenAI 及其同行努力开发越来越大的对话 AI 模型不同,后者旨在本质上比其前代更聪明、更精确。OpenAI 及其竞争者希望更大的模型将更适合驱动 Agent,但目前来看,了解 LLMs 将如何快速改进还需要一定时间。


03

吴恩达:基于 GPT-3.5 的 Agent

实际表现比 GPT-4 更好

(以下内容编译自吴恩达在 AI Ascent 2024 的分享)

Andrew Ng(吴恩达)在 AI Ascent 2024 大会上关于 AI Agent 的观点:流程化 Agent(Agent 工作流)的价值被大大低估了,基于 GPT-3.5 构建的 Agent 工作流在实际应用中的表现比 GPT-4 更好。

吴恩达谈了 4 种 Agent 的模式:反思(Reflection)、使用工具(Tool use)、规划(Panning)以及多智能体协同(Multi-agent collaboration)。

反思(Reflection)是一个我认为我们都应该使用的工具,因为它确实有效,但我认为它还没有得到广泛的认可。规划(Planning)和多智能体协同(Multi-agent collaboration)目前还处于新兴阶段,当我使用它们时,有时会对它们的表现感到震惊,但至少在目前,我觉得还不能让它们稳定工作。

1. 关于反思(Reflection)

举个例子,假设你要求系统为你编写一个给定任务的代码。然后我们有一个 Coder Agent,它本质上就是一个语言模型,你提示它编写类似 def do_task() 这样的函数。

自我反思的一个例子是,如果你用与刚刚生成的代码完全相同的代码提示语言模型,然后说"请仔细检查代码的正确性、健全性、效率和良好的结构"。

事实证明,你提示编写代码的同一个语言模型可能能够发现问题,比如"第 5 行有一个 bug,可以通过做 xxx 来修复",如果你现在把它自己的反馈再次提供给它并重新提示,它可能会提出一个比第一版更好的版本 2 代码。这并不能保证,但在很多应用中,它经常能奏效,值得一试。

如果你让它运行单元测试,如果没通过单元测试,就问它为什么没通过,进行对话,找出没通过单元测试的原因,然后尝试修改一些东西,提出版本 3 的代码。顺便说一下,对于那些想更多地了解这些技术的人,我对它们感到非常兴奋。对于这四个部分中的每一个,我在底部都有一个推荐阅读的小节,希望能提供更多的参考资料。

再次说一下多智能体协同(Multi-agent collaboration)。我把它描述为一个单一的 Coder Agent,你提示它与自己进行对话。这个想法的一个自然演变是,不是一个单一的代码 Agent,而是可以有两个 Agent,一个是 Coder Agent,另一个是 Critic Agent。

它们可以是相同的基础语言模型,但你以不同的方式提示它们,比如对其中一个说"你是专业的程序员,请编写代码",对另一个说"你是专业的代码审查员,请审查这个代码"。这种类型的工作流实际上很容易实现,我认为这是一种非常通用的技术,适用于很多工作流程,这将显著提高语言模型的性能。

2. 第二个设计模式是使用工具(Tool use)。

我们已经看到基于语言模型的系统使用工具的例子,左边是 GitHub Copilot 的截图,右边是我从 GPT-4 中提取的内容。但是今天的语言模型,如果你问它"什么是最好的咖啡机",它会进行网络搜索。

对于一些问题,它会生成代码并运行代码。事实证明,有很多不同的工具被用于分析、收集信息、采取行动和提高个人生产力。

有趣的是,早期关于工具使用的许多工作似乎都源于计算机视觉领域,因为在大型语言模型出现之前,它们无法处理图像。因此,唯一的选择是让语言模型生成一个可以操作图像的函数调用,比如生成图像或进行目标检测等。

所以如果你真的看一下文献,有趣的是,在工具使用方面的大量工作似乎都源于视觉领域,因为在 GPT-4 等出现之前,语言模型对图像是盲目的。这就是使用工具,它扩展了语言模型的能力。

3. 关于规划(Planning)

对于那些还没有大量使用过规划算法的人,我觉得很多人都谈论过 ChatGPT 时刻,觉得"哇,从未见过这样的东西"。

我想,如果你没有使用过规划算法,很多人会有一种"AI Agent,哇,我无法想象 AI Agent 能做到这一点"的感觉。我举办过现场演示,有时候某些东西失败了,AI Agent 绕过了这些失败。实际上,我有过很多这样的时刻,感到"哇,真不敢相信我的 AI 系统刚刚自主地做到了这一点"。

举个我从一篇 HuggingGPT 论文中改编的例子。比如你说"有一幅女孩正在读书的通用图像,让图像中的女孩摆出与男孩相同的姿势。Jack,请为你的声音描述新的图像"。

给出这样一个例子,今天我们有 AI Agent 可以做,首先要确定男孩的姿势,然后可能在 Hugging Face 上找到合适的模型来提取姿势。接下来需要找到一个姿势图像模型来合成一张女孩的图片,遵循指令,然后使用图像到文本的转换,最后使用文本到语音的转换。

今天,我们实际上有 Agent,我不想说它们工作得很可靠,它们并不总是奏效,但当它奏效时,实际上相当惊人。使用 Agent 循环,有时你也可以从早期的失败中恢复。所以我发现自己已经在使用研究 Agent 来完成我的一些工作,比如一项研究工作,我不想自己去 Google 搜索,花很长时间,我会把它发送给 Research Agent,几分钟后回来看看它提出了什么,有时它奏效,有时不奏效,但这已经是我个人工作流程的一部分了。

4. 最后一个设计模式是多智能体协同(Multi-Agent collaboration)

这是一件有趣的事情,但它的效果比你想象的要好得多。

如下图,左边是一篇名为 ChatDev 的论文的截图,它是完全开源的。你们许多人可能看过令人眼花缭乱的社交媒体公告,演示了 DeepMind 的 AI 编码助手。ChatDev 是开源的,可以在我的笔记本电脑上运行。

ChatDev 所做的是多 Agent 系统的一个例子,你提示一个语言模型,有时扮演软件公司的 CEO,有时扮演设计师,有时扮演产品经理,有时扮演测试人员。你通过提示语言模型告诉他们"你现在是 CEO,你现在是软件工程师",建立了一群 Agent,它们协作并进行广泛的对话。

所以如果你告诉它"请开发一个游戏,开发一个 GUI 游戏",它们实际上会花几分钟编写代码,测试代码,迭代,然后生成一个非常复杂的程序。它并不总是奏效,我有时使用它,有时它不奏效,有时它令人惊叹,但这项技术确实在不断进步。

事实证明,让不同的 Agent 进行辩论,例如让 ChatGPT 和 Gemini 互相辩论,实际上也会带来更好的表现。所以让多个模拟的 AI agent 协同工作已经成为一个强大的设计模式。

总结一下,我认为这些是我看到的模式,如果我们在工作中使用这些模式,我们中的许多人都可以很快得到生产力的提升。我认为 Agent 推理设计模式将很重要,我预计今年 AI 能做的事情将因 Agent 工作流而大大扩展。



如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。



更多阅读

10位拿到钱的AI创业者:他们的焦虑、预判和规划

创业复盘:Ai Pin 失败,8 亿美元估值的 Humane 如何走到这一步?

被 Zoom、Teams 统治的赛道,AI 产品如何三个月内新增 50 万用户?

从 YC W24 看硅谷 AI 创业新趋势:AI Agent、垂直领域、多模态和 AI 安全

什么样的 AGI 创业者更容易获得资本青睐?


转载原创文章请添加微信:geekparker