a16z 的投资人与四位新锐 AI 创业公司的 CEO 们讨论了 LLM 未来的发展方向。
包括:Anthropic 首席执行官 Dario Amodei;Cohere 首席执行官 Aidan Gomez;Character.AI 首席执行官 Noam Shazeer;以及 AI21 Labs 的 Yoav Shoham。
他们总结了四个核心方向:
-
尽可能解决幻觉问题,握好方向盘
-
用更大更精准的内存方案解决个性化问题
-
从知识到推理到行动,教会模型使用工具
-
多模态,让模型具备真正通用的能力
「幻觉」难题
握紧方向盘
因为大模型还存在「幻觉」的问题,所以很多创业者对于在产品和工作流程中使用 LLM 持谨慎态度。
为了解决这个问题,聚焦模型输出,并帮助模型更好地理解和执行复杂的用户需求,核心的模型公司正在努力改进控制 LLM 输出的方法,他们称之为 steering,转向。
Character.AI 的 CEO Shazzer 将 LLM 类比为儿童,「这是如何更好地指导模型的问题。我们需要正确的方法来告诉模型,它们要如何做到我们想做的事。小孩子也是这样,有时候他们会编造一些事,对幻想和现实没有确定的掌握。」
现在已经出现了一些研究成果和工具,Guardrails 和 LMQL 等,但研究仍在进行中,a16z 认为这一方向是开发者最终能更好地实现 LLM 产品化的关键。
对企业来说,改进 steering 非常重要。Anthropic 的创始人 & CEO Amodei 认为,LLM 的不可预测性让人感到不安,作为 API 的提供商,他希望能对用户说「不,模型不会那么做」,或者至少「很少那么做」。
通过改进 LLM 的输出,开发者在匹配模型性能与客户需求的问题上能获得更多信心。
Steering 的改进也会为其他需要准确性和可靠性的行业提供帮助,比如广告等等。
「从法律场景、医疗场景、储蓄财务信息和管理金融风险等领域,到需要保护公司品牌的地方,在这些场景中,你肯定不希望使用的技术是不可预测或者难以预测和描述的。」
通过改进 Steering,LLM 能够以更少的提示工程完成更加复杂的任务,因为它们将能够更好地理解用户的意图。
更好地控制 LLM 的输出,还能够打开模型在一些敏感的 C 端应用中可能性。用户期待获得个性化和准确的回应。
尽管用户与 LLM 对话或者生成一些创意内容时,他们可能会容忍不太准确的输出,但在日常任务中,使用 LLM 协助他们为重大决策提供建议,或扮演生活教练、治疗师和医生的角色时,用户都希望能获得更准确的输出。
LLM 能否真的取代搜索之类互联网时代根深蒂固的工具和产品,也许就取决于它们是否能做好 Steering,改进输出,建立用户的信任。
「内存」难题
目标是个性化
上下文,context 的能力,是亟待解决的短板,它限制了「个性化」。
虽然 prompt 和 fine-tune 可以实现一定程度的个性化,但前者难以批量化,后者成本高昂,需要重新训练,往往要和闭源 LLM 厂商紧密合作。这对于小团队和个人用户而言是几乎不可能的。
上下文学习,让 LLM 从企业内容、术语或者特定的上下文中学习的能力,是圣杯,它能创造出更精细和匹配特定需求场景的输出。
为了解锁上下文能力,LLM 需要更强的内存、记忆能力。
LLM 的内存包括两个主要组成部分:上下文窗口(context windows)和检索(retrieval)。
上下文窗口,是除了训练数据以外,同样「喂」给模型让它处理并从中输出获得信息的文本。
检索是从模型训练数据的语料库之外的数据体中,检索和参考的相关信息和文档(contextual data)。
目前,大多数 LLM 的上下文窗口有限,无法本地检索其他信息,因此生成内容的个性化程度不足。但是通过更大的上下文窗口、改进检索,LLM 可以直接提供更适合个人场景的精细输出。
特别是通过拓展上下文窗口,模型将能够处理更大量的文本,并更好地维持上下文能力,在对话中保持连续性。
这将进一步显著提高模型执行一些需要深入理解和更长输入的任务的能力,比如总结长文、在延伸的对话中生成连贯的、符合上下文的回答。
上下文能力的改进正在进程中,GPT-4 有 8k 和 32k 的上下文窗口,GPT-3.5 和 ChatGPT 只有 4k 和 16k token 的能力。
Claude 最近将上下文能力拓展到 100k token。
但仅仅拓展上下文长度并不能充分提高记忆能力,因为推理的成本和时间随长度变化,几乎呈线性甚至是二次方的规模增长。
检索机制通过最相关的上下文数据来增强和完善 LLM 的原始训练语料库。因为 LLM 的信息通常难以更新,所以检索有两个好处,AI21 Labs 的创始人 Shoham 说,「首先,它允许你访问训练时没有的信息来源;其次,它能够让模型集中在与任务相关的信息上。」
向量数据库已经成为高效检索相关信息的(事实上的)标准,并作为大模型的内存层,让模型能够更快更快更准确地搜索,引用海量信息中的正确数据。
扩展的上下文窗口和检索机制将对企业使用场景非常宝贵,例如浏览大型知识存储库或复杂数据库。公司将能够更好地利用其专有数据,如内部知识、历史客户记录或财务结果,作为大模型的输入,而无需进行精细调整。
改善大模型的记忆将在培训、报告、内部搜索、数据分析与商业智能以及客户支持等领域带来改进和深度定制的能力。
在消费者领域,改进的上下文窗口和检索机制将实现强大的个性化功能,从而彻底改变用户体验。
Noam Shazeer 认为,「其中一个重要突破将是开发一个高记忆容量的模型,以便为每个用户进行个性化定制,并能够在规模上以成本效益的方式提供服务。你希望你的心理医生了解你生活的方方面面;你希望你的老师了解你已经掌握的知识;你希望生活指导可以为你提供建议。它们都需要上下文。」
Aidan Gomez 对这一发展也同样感到兴奋。「通过让模型访问与你个人相关的数据,如电子邮件、日历或讯息,模型将了解你与不同人的关系,以及你与朋友或同事交流的方式,并在这种上下文中帮助你实现最大的效用。」
从知识到行动
让模型学会使用工具
大模型的真正力量在于让自然语言成为行动的媒介。
大模型对常用和充分记录的系统有着复杂的理解能力,但它们无法执行从这些系统中提取的任何信息。
例如,OpenAI 的 ChatGPT、Anthropic 的 Claude 和 Character AI 的 Lily 可以详细描述如何预订航班,但它们本身无法直接预订航班(尽管像 ChatGPT 的插件等已经开始解决这一问题)。
Amodei 说:「理论上大模型有一个大脑拥有所有这些知识,只是缺乏将具体操作指令(名称)转化为实际执行的步骤(按下按钮)的映射关系。将不同的组件连接起来不需要太多训练。大模型本身就像一个没有实体的大脑,它对如何进行操作有着理论上的了解,但它还没有实际的执行工具,就像没有连接的手和脚一样。」
我们已经看到各家公司不断改进大模型使用工具的能力。像 Bing 和 Google 这样的老牌公司以及像 Perplexity 和 You.com 这样的初创公司引入了搜索 API。AI21 Labs 推出了 Jurassic-X,通过将模型与预定的一系列工具(包括计算器、天气 API、维基 API 和数据库)结合起来,解决了独立大模型的许多缺陷。
OpenAI 推出了插件,使 ChatGPT 能够与 Expedia、OpenTable、Wolfram、Instacart、Speak、网络浏览器和代码解释器等工具进行交互,这一突破被比作苹果的「App Store」时刻。最近,OpenAI 还在 GPT-3.5 和 GPT-4 中引入了函数调用功能,使开发人员能够将 GPT 的能力与任何外部工具链接起来。
通过将重点从知识挖掘转向行动导向,有潜力在各个公司和用户类型中添加『手』和『脚』开启一系列应用场景。
对于消费者来说,大模型可能很快就能提供食谱建议,然后订购所需食材,或者给出一个早午餐地点建议并预订餐桌。
对于企业来说,创始人可以通过接入大模型使他们的应用程序更易于使用。
正如 Amodei 所指出的,「对于从用户界面角度来看非常难以使用的功能,我们可能只需用自然语言描述就能实现复杂的操作。」
例如,对于 Salesforce 等应用程序,大模型集成应该能够让用户以自然语言进行更新,并使模型自动进行相应的更改,从而大大缩短了维护 CRM 所需的时间。像 Cohere 和 Adept 这样的初创公司正在致力于将大模型集成到这些复杂工具中。
Gomez 认为,尽管在 2 年内,大模型可能会使用像 Excel 等应用,但仍然需要进行一系列的改进。
「我们将拥有第一代能够使用工具的模型,令人遐想,但也非常敏感。最终,我们将获得理想的系统,可以将任何软件交给模型,并提供一些关于『这是工具的功能,这是如何使用它的』的描述,模型就能够使用这些软件。一旦我们能够为大模型提供特定和通用的工具,它所释放出的自动化能力将成为所在领域的明星产品。」
多模态
语言模型并不是真正通用的模型
虽然聊天界面对许多用户来说非常直观,但人们日常用语言听,说的频率比阅读写作还要高。
正如 Amodei 所指出的,「AI 系统能做的事情是有限的,因为并非所有内容都是文本」。
具备多模态特征或能够无缝处理和生成多种音频或视觉格式的模型,可以将交互推向超越语言的层面。
像 GPT-4、Character.AI 和 Meta 的 ImageBind 等模型已经可以处理并生成图像、音频和其他模态,但它们生成的质量仍停留在非常基础的水平上(尽管模型在不断改进)。
如 Gomez 所说,「我们的模型在直接处理视觉信息方面还有所欠缺,这一点需要改进。我们目前已经构建了很多图形用户界面(GUI),但这些界面都是在用户能够看得见的前提下设计的。」
随着大模型不断进化,多模态能力将不断强化,不论是理解还是交互,它们将能够使用现有的 App(例如浏览器)这样依赖于 GUI 的应用。它们还可以为用户提供更加引人入胜、连接性更强、内容更全面的体验,用户将能够在聊天界面之外进行交互。
Shazeer 指出:「与多模态模型的整合可以使体验更加有趣、与用户连接更加紧密。」他还表示:「我相信,目前大部分核心智能来自于文本,但音频和视频可以使体验更加有趣。」从与 AI 导师进行视频聊天到与 AI 合作编写剧本,多模态技术具有改变娱乐、学习与发展以及内容生成的潜力,适用于各种消费者和企业应用场景。
多模态也与工具使用密切相关。虽然大模型最初通过 API 与外部软件连接,但多模态将使大模型能够使用为人类设计的工具,而这些工具没有定制化的集成,比如传统的企业资源规划(ERP)系统、桌面应用程序、医疗设备或制造机械。
在这方面,我们已经看到了令人振奋的发展成果:例如,谷歌的 Med-PaLM-2 模型可以合成乳腺 X 光和 X 光片。而且从长远来看,多模态,特别是与计算机视觉的整合,可以通过机器人、自动驾驶和其他需要与物理世界实时交互的应用程序将大模型扩展到物理现实中。
虽然大模型存在一些局限性,但研究人员在短时间内对这些模型进行了令人惊叹的改进——实际上,自从撰写本文以来,我们不得不多次更新文章,这证明了这项技术在快速进步。
Gomez 也表示同意:「大模型在 20 次中有 1 次捏造事实的概率显然太高。但我非常有信心,因为这是我们第一次构建这样的系统。人们的期望值相当高,因此目标已经从『计算机愚蠢到只能执行数学运算』提高到『像人一样做得更好』。我们已经成功缩小了人机之间的差距,以至于现在的批评集中在计算机能否达到人类水平。」
我们对以下 4 项创新尤为兴奋,它们即将改变创业者构建产品和经营公司的方式。从长远来看,潜力更加巨大。
Amodei 预测:「在某个时刻,我们可能会拥有一个模型,能够通过阅读所有的生物数据找到治疗癌症的方法。」
实际上,最好的新应用仍然未知。
在 Character.AI,Shazeer 让用户开发这些应用场景:「我们将看到许多新的应用被释放出来。我很难说出这些应用是什么。将会有成千上万种应用,而大多数用户比少部分工程师更擅长发现如何利用这项技术。」
我们迫不及待地期待这些进步对我们生活和工作方式的深刻影响,创业者和公司将通过这些新工具和能力实现强大的赋能。
评论
沙发等你来抢