图片

标题:Sparks of Artificial General Intelligence: Early experiments with GPT-4

论文https://arxiv.org/pdf/2303.12712.pdf

作者Sébastien Bubeck(高级首席研究经理), Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke(雷蒙德实验室主任)Eric Horvitz(首席科学家), Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg(高级研究员), Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, Yi Zhang

中文版PDF(154页)下载地址

https://event-cdn.baai.ac.cn/file/file-browser/waTXJn85fm3FPyDXpsZ4faGk47trjjYb.pdf 


以下来自Mindverse Researchg公众号内容

本文提供了对 GPT-4 早期版本的研究报告。 作者认为,GPT-4 比 ChatGPT 以及其他相关 LLMs 表现出更多的通用智能。作者发现,除了对语言的掌握,GPT-4 还可以解决横跨数学、编码、视觉、医学、法律、心理学等领域新颖而困难的任务,并且不需要任何特殊的提示。在所有这些任务中,GPT-4 的表现惊人地接近人类的表现水平,并且大大超过先前的模型,如 ChatGPT。考虑到 GPT-4 功能的广度和深度,作者认为它可以被合理地视为通用人工智能(AGI)系统的早期(但仍不完整)版本。此外,作者还特别强调了 GPT-4 的局限性,并讨论了朝着更深入和更全面的 AGI 版本前进将面临的挑战,例如对超出「预测下一个单词」这种范式之外的架构的探索。

作者提到,基于「预测下一个单词」的范式,可以很好的解决系统1的问题,而对于系统2的问题,则超出了这个范式的能力范围(能够被转换为系统1的问题除外)。对于系统2的问题,需要一套模型之上的框架来进行约束。在这里,作者特意提到了 LeCun 之前所提出的框架,并认为其是一个可能的解法。 而实际上,在 LeCun 的框架提出之前,心识宇宙就已经在这个方向进行了长期的探索,并提出了心识框架,其能够突破「预测下一个单词」范式的限制,赋予 AI 更高级的认知功能。

*声明:这份研究是基于早期的 GPT-4 且没有多模态版本的语言模型进行的,其还没有被很好的 aligment。因此,作者强调,文章的一些不安全以及不良的示例在 GPT-4 最新的版本中,已经进行了修正。

作者首先提供几个基础的示例,来证明 GPT-4 在各种任务的通用性:

  • 用诗的形式证明无穷素数
  • 用 TiKZ( Latex 绘图语言)的方式绘制一幅图
  • 用 python 绘制一个复杂动画
  • 解决一个高中难度的数学题

图片

作者对 GPT-4 几个 checkpoints 进行测试,发现 GPT-4 的确逐渐在成长,作者间隔一个月分别问同样的问题,可以看出 GPT-4 画的图越来越精细:

图片

GPT-4 完全可以通过语言来理解图像语义,比如将角随机放到不同坐标,让模型修复,结果可以将角放到正确的位置

图片

在接下来的文章中,作者对 GPT-4 在各方面的能力进行了系统的测评。由于 GPT-4 用了大量数据,所以包括 Big-bench 在内的很多数据其实都已经见过,此外,因为 GPT-4 具有更强的泛化和指令理解能力,传统数据集也无法很好的评估 GPT-4。因此,作者采用了更偏心理学测评的方式而不是传统机器学习测评的方式。作者选择了以下方法对智能进行定义: 一个通用智能应该包含:推理,规划,问题解决,抽象思考,理解复杂相反,快速学习,通过经验学习等。

多模态与跨学科组合能力

衡量智力的一个关键指标是综合来自不同领域或方式的信息的能力,以及在不同背景或学科中应用知识和技能的能力。作者发现,GPT-4 不仅在文学、医学、法律、数学、物理科学和编程等不同领域表现出很高的熟练程度,而且还能够灵活地结合来自多个领域的技能和概念,表现出对复杂思想的深刻理解。

整合能力

为了展示模型卓越的集成能力,作者做了几个示例,这些示例需要结合来自多个学科的知识或技能的方式生成文本和代码。作者特意选择了训练数据很少包含的领域的组合,比如文学和数学,或者编程和艺术。

比如,作者要求按照莎士比亚的风格写一个无穷素数的证明:

图片

又比如,让 GPT-4 写一段 js 代码,来画一幅 Kandinsky 的画:

图片

GPT-4 和 ChatGPT 生成图片对比:

图片

Vs

图片

为了证明 GPT-4 不是仅仅 copy 了代码,而是真的理解了图片复杂的语义,作者做了如下测试,让 GPT-4 按照 字母「O Y H」来画一些组合图形,从下图可以发现,GPT-4 能够很好的理解一些物理常识:

图片

让模型根自己生成一段描述,之后在生成代码,如下图,这里只写了描述,模型能够很好的利用符号,并结合物理常识生成看起来非常合理的图案:

图片

作者进一步测试了 GPT-4 生成和处理图像的能力,作者测试了遵守指令(关于编辑图片说明)的程度。这项任务不仅需要生成技巧,还需要解释、组成和空间技能。作者写了一段描述,然后让 GPT-4 追加一些内容,发现追加的内容很符合图形的常识:

图片
图片

此外,GPT-4 生成的 sketch 可以直接用于提示 stable diffusion,例如将第一张图和描述一起给 stable diffusion,可以生成语义更加竞争的图片(下图第三张):

图片

音乐能力

模型所训练的数据还包含以 ABC 符号编码的音乐信息。这是一个使用字母、数字和符号以紧凑和可读的方式表示音高、持续时间、和弦和其他元素的系统。

作者探索模型从这种接触中获得音乐技能的程度,例如创作新的旋律,转换现有的旋律,以及理解音乐模式和结构。通过不断的交流和修改,GPT-4 可以理解音乐的结构,并不断根据指令进行调整,最终产生一个很好的乐谱:

图片

作者发现,该模型能够以 ABC 表示法生成有效的曲调,并在一定程度上解释和操作它们的结构。然而,ABC 记谱法并不是一种使用非常广泛的格式,因此,该模型甚至不能用 ABC 记谱法生成最著名的曲调(如欢乐颂)等。

代码能力

GPT-4 可以处理广泛的编码任务,从编码挑战到真实世界的应用程序,从低级汇编到高级框架,从简单的数据结构到复杂的程序(如游戏等)。

此外,GPT-4 还可以推理代码的执行,模拟指令的效果,并用自然语言解释结果。GPT-4 甚至可以执行伪代码,这需要其可以解释在任何编程语言中都无效的非正式、模糊的表达式。

同时,作者也发现,GPT-4 在编码方面还不完美,因为它有时会产生语法无效或语义错误的代码,特别是对于较长或更复杂的程序。GPT-4 有时也不能理解或遵循指示,或产生与预期功能或风格不匹配的代码。不过,作者发现,GPT-4 能够通过对人类反馈和编译器/终端错误的响应来改进其代码。

作者测试了 GPT-4 在 HumanEval 数据集上(text-code 的数据集),包含了 164 个代码问题,GPT-4 的准确率高达 82%:

图片

作者同时进一步测试了 leetcode (pass@1 表示第一次就通过  pass@5 表示试了5次才通过),结果发现,GPT-4 的表现大幅度超越了之前的模型:

图片

下面是 Prompt 示例:

图片

为了评估 GPT-4 代码的能力在真实场景的应用,作者在包括数据可视化、Latex、前端开发、深度学习等方向进行了测试。

数据可视化:让模型通过交互去修改代码(这里用的是 python),此外附录中有额外的例子展示(Example of GPT-4 visualizing IMDb data) 

图片

让模型进行游戏开发

图片

让模型写代码,GPT-4 对语义的理解更好:

图片

将自然语言手写公式转换成 latex,GPT-4 可以准确执行:

图片

GPT-4 可以一定程度理解代码,并进行虚拟执行

图片

执行 python 代码:

图片

也可以理解并执行伪代码

图片

数学能力

在这一节,作者评估了 GPT-4 在面对需要数学思维和模型构建的问题时,如何表达数学概念,解决数学问题和应用定量推理的能力。GPT-4 相对于以前的 LLMs 在表现上有一个飞跃式的提升,即使是与专门针对数学模型进行微调的 Minerva 相比。然而,作者提到,GPT-4 还远远没有达到专家的水平,不具备进行数学研究所需的能力。

首先,在下图的简单测试中,GPT-4 成功解答,而 ChatGPT 解答失败:

图片

与 GPT-4 进行数学对话

作者尝试以讨论的形式来和 GPT-4 对话,从而揭示一些人类和 GPT-4 之间的一些差异,其形式为,针对一个问题,让人类和模型进行讨论,最后来得到最终答案。

如下图所示,GPT-4 抓住了问题的关键,并为问题提供了合理的数学重新表述

图片

作者提供了一些演示,主要是人类和模型进行问题讨论,由于图片过多(参考原始论文 P32-33 ),此处不一一列举,大概结论是:GPT-4 的数学推理,非常依赖于上下文,好的上下文可以诱导模型产生好的推理

作者对模型的行为在一下几个方面进行了分析:

  • 创造性思考,当涉及到高中水平的问题(有时是更高水平的问题)时,模型在选择正确的论点或解决方案的路径方面表现出很高的能力。为了将其与上面的例子联系起来,模型正确地选择在原始问题中尝试并写出递归关系,并在后续问题中讨论多项式的组合度。

  • 技术专业度,虽然模型能够展示出与不同过程高度相关的算法知识,但在执行这些任务时,它也会经常犯错误,例如犯算术错误,混淆运算顺序或使用不正确的符号。作者推测,这方面可以通过让模型访问代码执行来改进,这将允许它更准确地执行计算或检查等价性(附录D提供了一些证据)。

  • 批判性推理,模型在批判性地审查论证的每一步上存在很大问题。这可以归结为两个因素。首先,模型的训练数据主要由问题及其解决方案组成,但它没有捕获表达导致数学问题解决的思维过程的措辞。而在这个过程中,一个人可以进行猜测,遇到错误,验证和检查解决方案的哪些部分是正确的,回溯等等。换句话说,由于训练数据本质上是解决方案的线性展示,在此数据上训练的模型没有动机进行支持模型重新访问并批判性地评估自己的建议和计算的「内部对话」。

在数学数据集上测试

此外,作者在三个数据集常规上进行了性能测试:

  • GSM8K:初中难度,有 8,000 问答样本,主题主要是算数,除法,几何,和单词问题。  

  • MATH:高中难度,包含了12,500 个问答样本,主题有现代,微积分,三角几何和概率。 

  • MMMLU-STEM:包含了大约 2000 多选题(4选),主要主题为高中和大学 STEM 相关的问题。

由于要在传统数据集上进行测试,模型可能之前已经见过类似的题目,因此作者做了几个处理:

  • (1)要求 GPT-4 为问题的解决方案编写模板来测试 GPT-4,(2) 首先写下步骤,然后写下最终答案。模板无法在线获得。

图片
  • 从数据集中选择一个有代表性的问题,其中 GPT-4 正确而 text-davincia-003 错误。之后改变了问题中的数字,发现 GPT-4 始终正确,text-davincia-003 始终错误。

  • 手写了几个新问题,仔细检查这些问题或接近的变体不会出现在网上。GPT-4 似乎在这些问题上表现出相同的性能。

模型准确率对比。GPT-4 准确率大幅度领先其他模型:

图片

作者检查错误样本,发现 GPT-4 的错误主要是由于算术和计算错误:模型在管理大量数字或复杂表达式时表现出很大的缺陷,而对于 ChatGPT,由于生成是不一致的,导致计算与问题的解无关,下面统计了一些错误类型占比:

图片
图片

数学能力在其他领域的应用

作者测试了 GPT-4 将数学能力迁移到其他领域需要定量思考能力的能力,发现效果也很好,比如下面是一个建模问题

图片

作者还测试了一些费米问题(抽象没有直接答案的问题),比如「How many piano tuners are there in Chicago? 」。这类问题需要极强的整合知识和量化思考能力,作者发现 GPT-4 在这类问题上也有很好的表现:

图片
图片

高难度数学问题

这里作者主要测试了一下 IMO(国际数学奥林匹克竞赛),作者发现模型在 IMO 问题上成功率较低,但是确实有一些例子是可以做出来了, 这也表明了 GPT-4 在数学上面的潜能:

图片

与世界的交互能力

智能的一个关键方面是互动性,作者将其定义为与其他agent、工具和环境的反馈进行沟通和响应的能力。互动性对于智能来说很重要,因为它使智能体能够获取和应用知识,解决问题,适应不断变化的情况,并实现超出其个人能力的目标。

工具使用

首先看一个例子,下面是模型利用自己的知识回复的结果(不使用工具的情况):

图片

使用工具的例子,GPT-4 可以在不给 few-shot 示例的情况下,自行决定工具的使用:

图片

作者测试了使用 GPT-4 黑掉本地网络上的一台计算机的任务,在没有任何信息的情况下,它能够制定并执行一个计划,在这个计划中,它扫描网络中的设备,识别目标主机,运行一个尝试普通密码的可执行文件,并获得对机器的根访问权。

这个工作证明 GPT-4 非常精通 Linux 命令,并且能够运行适当的命令,解释其输出。而同样描述下,ChatGPT拒绝执行该任务,理由是它可能是非法的。这里原因是 ChatGPT 已经做了很多关于 saftey 的 alignment,而本研究中的 GPT-4 是早期版本,还未进行 alignment。 

图片

作者给出了一个 GPT-4 执行 Linux 命令的例子:

图片

这里作者测试了 GPT-4 结合使用多种工具来管理用户的日历和电子邮件的任务。用户要求 GPT-4 与另外两个人协调一顿晚餐,并在用户有空的时候预订。GPT-4 使用可用的 api 检索关于用户日历的信息,通过电子邮件与其他人协调,预订晚餐,并将详细信息发送给用户。可以发现,GPT-4 可以很好的理解用户意图,并完成相应的动作:

图片

使用 GPT-4 浏览网页,作者声称,虽然 ChatGPT 也可以很好的利用 search,然后根据结果做回答,但是 GPT-4 是不需要写 few-shot 示例的

图片

作者总结,在使用工具的任务上,GPT-4 仍然需要一个提示,指定允许或期望使用外部工具。在缺乏提示的情况下,其表现受到 LLM 固有弱点的限制(如:弱符号操作,有限的当前世界知识等)。此外,作者发现,即使可以使用工具,GPT-4 也并不总是能够推理出什么时候应该使用它们,什么时候应该简单地基于自己的参数知识进行响应,例如,当询问法国首都时,它仍然使用搜索引擎(未显示),即使没有搜索结果它也可以正确回答。

具身交互

人类能够使用自然语言与其他代理进行交流,探索和操纵他们的环境,并从他们的行为的后果中学习。这种具体的交互要求智能体理解上下文、目标、动作和每个交互回合的结果,并相应地进行适应

作者准备了一个房子的「地图」,并要求 GPT-4 通过交互式查询来探索它。要求它用语言和可视化的方式描述它,并将其与真实的地图进行比较。虽然 GPT-4 并没有探索整个房子,但它准确地描述了它所探索的内容,尽管它的所有交互都是通过这个受限的文本界面进行的。

图片

接下来,作者使用 TextWorld(一个用于生成和玩基于文本的游戏的框架),来创建两款具有不同给定任务的游戏。

① 第一款游戏发生在一个有很多房间的房子里,玩家的目标是通过在不同的房间间导航找到并解锁某个箱子。这款游戏相对简单,因为它不涉及任何库存管理、锻造或战斗。游戏环境由文本段落描述,玩家可以输入“向北”、“检查沙发”或“打开箱子”等命令。

将来自 Textworld 的确切初始文本作为初始提示,并将帮助作为第一个命令发出。之后,GPT-4 以普通玩家的身份玩游戏。在没有任何额外帮助的情况下,它只需要 30 个动作就可以完成游戏,并且无需在房间中循环就可以有效地导航环境:

图片

从质量上看,GPT-4 以一种非常保守的方式解决了游戏问题,即检查并拾取每个房间中的每个物体,而不管它们是否与游戏目标相关。然而,相比之下,text-davinci-003 根本不响应环境反馈,而是重复地发出相同的命令

② 第二个游戏,根据食谱准备两种原料,五个步骤的饭菜。这款游戏比前一款更具挑战性,因为玩家(GPT-4)必须从环境响应中自己想出关键命令(没有在提示中列出),例如切食物,使用正确的器皿,打开电器等。GPT-4 在玩游戏时使用试错法,但它也能适应环境,并在动作之间进行概括。在下图中,它了解到 chop 命令需要一把刀,之后它就不会犯同样的错误。它遵循食谱上的说明,但也推断出一些提示中缺少的操作,如采取所需的配料。虽然游戏没有明确指出缺少关键命令,但 GPT-4 做出了合理的猜测 。尽管 GPT-4 还不能很好的解决这个问题,但本文的作者在查看源代码之前(他们陷入了同样的步骤)也不能解决该问题。然而,如果我们给 GPT-4 一个制作不同餐食的一次性演示,它就能够从中归纳并解决游戏(参考附录F.2.4)。

图片

此外,GPT-4 也可以解决真实世界的问题,通过和人进行交互,例如下面指导人类去完成一些任务

图片

与人类交互

作者设计了一系列测试来评估 GPT-4、ChatGPT 和 text-davinci-003 的心理理论能力。这些测试基于简单的场景,需要更基本或更高级的心理理论来回答有关角色心理状态的问题。

从现代版的萨利-安妮测试(BCLF85)开始,萨利-安妮测试是一种经典的错误信念测试,广泛用于评估儿童的心理理论。下图显示了 GPT-4 的输入和输出,它正确地回答了 Alice 将在原始文件夹中查找文件,演示了它可以推断 Alice 的信念。ChatGPT 也正确地回答了问题(未显示),而 text-davinci-003 给出了错误的答案(未显示),表示 Alice 将在新文件夹中查找该文件:

图片

GPT-4 推理他人的情绪

两个角色谈论一个名为 ZURFIN 的对象(使用一个无意义的单词来测试抽象性并防止模型只是单纯的记住了训练样本)。GPT-4 能够正确地推断出汤姆情绪状态的原因,也能很好地推断出亚当对汤姆情绪状态的信念(基于不完全信息)。ChatGPT 也通过了测试(未显示),而 text-davinci-003 (未显示) 在回答第一个问题时没有提及对话,并且未能解释 Adam 在回答第二个问题时缺乏关于丢失 ZURFIN 的信息。

图片

作者还测试了根据其中一个角色的令人困惑的行为推断可能的意图的任务,如下图所示:

GPT-4 给出了令人困惑的行为背后的意图以及第三方对这一令人困惑的行为的可能解释的合理而微妙的答案。ChatGPT 对第一个问题给出了类似的答案,但与 GPT-4 不同的是,它没有对第二个问题提供细致的回答,而是提供了一个更笼统、信息量更少的答案。Text-davinci-003 对这两个问题给出了看似合理但非常简短的答案(未显示)。

图片

此外,作者测试困难社会情境的现实场景,需要非常高级的心理理论才能理解,GPT-4 能够推断出每个角色的心理状态,也能辨别出沟通不畅和误解的所在。相比之下,ChatGPT 和 text- davincic -003(未显示) 都错误地接受了其中一个角色做出的错误假设(Judy 假设 Mark 想要为 Jack 的行为辩护),因此无法理解情况的真实动态。反过来,这导致了 ChatGPT 和 text-davinci-003 的通用改进建议,而 GPT-4 提供了实际解决误解根源的建议。

图片

在不暗示存在一个「正确」答案的情况下,作者注意到 GPT-4 提供了更微妙的答案,将整个场景和参与者考虑在内。相比之下,ChatGPT 提供了更一般的答案,不包括对角色心理状态的推理,text-davinci-003 的情况与 ChatGPT 类似,但比 ChatGPT 更短。

图片

解释行为

解释自己行为的能力是智能的一个重要方面,因为它允许系统与人类和其他智能体进行交流。自我解释不仅是一种交流形式,也是一种推理形式,需要你自己(解释者)和倾听者都有良好的心理理论。

作者发现,上下文对 GPT-4 解释行为的影响非常大

图片

作者发现,GPT-4 非常擅长生成合理和连贯的解释,即使输出是无意义或错误的,而 003 的解释则往往会产生不一致的问题

图片

基于上述发现,作者对过程一致性进行了测试(答案相似的时候,其推理答案的过程是否一致),作者发现,GPT-4 在相似的上下文中对不同的输入产生的解释经常与自己的输出相矛盾

图片

下面是一个过程不一致性的例子,两个会话中的解释都是输出一致的,其过程是不一致的(在第一个会话的解释中列出的四个职业中,只有三个是一致的)。作者认为,答案一致性不代表过程就是一致的,而且很多时候,大家更加追求的是答案一致性,而过程的不一致性也许有时候可以带来一些启发式思考。

图片

分辨能力

辨别能力是智能的一个组成部分,它允许智能体区分不同的刺激、概念和情况。反过来,这种能力使智能体能够以更有效的方式理解和响应环境的各个方面。例如,区分不同类型食物的能力可以帮助动物识别哪些可以安全食用,哪些可能有毒。总的来说,辨别能力很重要,因为它能让一个人做出更准确的判断和决定,这是智力的一个重要组成部分。

个人身份信息检测

作者测试了让 GPT-4 来识别个人身份信息(PII),来评估它执行辨别任务的能力。其设置的具体任务如下:给定一个特定的句子,找出构成 PII 的片段,并计算这些片段的总数。这是一个具有挑战性的问题。因为模型可能不清楚什么构成了个人身份信息:它可以包括电子邮件地址、电话号码、社会保险号、信用卡号,以及其他无关的信息,如地名和地点。

任务:给模型提供一段关于个人信息的描述,让模型解析出各种关键信息(Presidio 是正则表达提取),结果发现 GPT-4 的准确率非常高,而且遗漏率很低:

图片

此外,作者发现 GPT-4 模型能够根据货币(克朗)推断出一个位置(丹麦)。而传统基于正则的 Presidio 不会将货币检测为 PII 元素,因此也会漏掉位置信息。

图片

概念混淆和事实检查

作者希望了解 GPT-4 是否可以用于确定语句之间的相似性:这是一个具有挑战性的问题,受到了 NLP 界的广泛关注。为此,作者考虑了开放世界问题回答的设置,其中模型的目标是为特定问题生成答案。

这里使用的测试数据是 TruthfulQA 数据集:

图片

作者使用了三种传统测试指标,结果发现:GPT-4 的效果均好于 GPT-3(003)

图片

之后,作者检测了一些 GPT-4 错误的样本发现,很多时候,并不是 GPT-4 答错了,而是 GPT-4 有时候会回答的很长,这使得使用传统的指标会将其判错。此外作者发现:

  • GPT-4 通常会给出更合理的答案。对于那些模棱两可的类别,例如神话和童话,尤其如此。

  • 虽然 GPT-4 在混淆类别中表现稍好(指有些问题会说的很含糊),但这并不多,依然会犯很多事实性错误,作者认为,解决该问题需要外部知识的帮助。

  • 在与人物和地点相关的类别中,GPT-4 的性能高于 GPT-3,因为当查询有关知名实体和地点时,观察到该模型(相对)较少产生幻觉。

使用 GPT-4 作为评估器

为了减少传统方法的误差,这里作者直接使用 GPT-4 来做评估,判断 GPT-4 生成的答案和 GPT-3 生成的答案,那个更接近与标准答案。

这里作者发现,GPT-4 和人类都认为,GPT-4 生成的答案要更接近于真实答案:

图片

使用的 Prompt 如下,使用了类似于 COT 的思路:

图片

自回归架构的限制

如前所述,GPT-4 在广泛的任务中展示了令人印象深刻的能力,例如推理、内容生成、问题解决等等。然而,该模型也有几个实质性的缺陷,其中一些缺陷似乎是作为其架构基础的「下一个单词预测」范式所固有的

图片

如上图例子所示,一般人如果不花时间规划句子的结构,就无法写出如此简洁的句子,而且在达到最终形式之前可能不得不「回溯」(进行编辑)几次。然而,GPT 体系结构不允许这样的回溯,这意味着产生这种输出需要「长远的」计划。由于 GPT-4 只能正向顺序输出,模型进行这种超前规划的唯一方法是依赖其内部表征和参数来解决可能需要更复杂或迭代过程的问题。

该模型的主要限制之一是该体系结构不允许「内部对话」或「临时记录」,这超出其内部表征,使它不能够执行多步计算或存储中间结果。虽然在某些情况下可以通过使用不同的提示来弥补这种限制,但在一些场景下,这种限制无法被缓解。

作者举了一个例子,通过更改提示,来让他通过中间推理,来生成答案,这类似于利用 CoT 的思路来帮助模型进行内隐的「思考」

图片

 

在数学推理能力中缺少规划

这里意思是即使对于一些简单的问题,模型一会经常失败,如下图所示:

作者用 100 个随机样本对模型进行了测试,在 0 到 9 之间均匀生成四个数字,得到的准确率只有 58%。这只涉及到个位数的乘法和两位数字的加法,一个具备基本数学知识的小学生就能解决这个问题,当数字在 10 ~ 19 之间和 20 ~ 39 之间均匀选择时,准确度分别下降到 16% 和 12%,当数字在 99 和 199 之间时,准确度下降到零。

图片

但是作者发现,当使用 CoT 的时候,当数字在 1 - 40 之间时,准确度为 100%,当数字在 1 - 200 之间时,准确度为 90%:

图片

尽管 CoT 缓解了自回归架构的限制,让其能够进行一定程度的「内隐思考」,然而,模型的自回归性质迫使它以连续的方式解决问题。但有些场景,不能简单地通过指示模型一步一步地找到解决方案来补救。作者在下面的例子中说明了这一点,通过这些例子,作者认为,很有可能,AGI 的发展最终需要扩展自回归框架

① 第一是一个汉诺塔的例子,模型对这类任务暂时无能为力,因为需要深度的递归推理(作者提示,即使写清楚汉诺塔的定义和规则,依然无助于模型解决该类问题)

图片

② 第二个任务是让模型修改左边一个数字,以便左边的表达式能够和右边的表达式相等。 模型对这类任务无法很好的处理。作者认为,这类任务也是需要提前规划,以及多步思考,而模型的线性输出特性无法很好解决这种问题。

图片

 

在文本生成任务中缺少规划

在文本生成任务下,依然存在类似问题,这里作者尝试的任务是:约束下的内容生成,要求模型根据包含其结构约束的特定指令生成文本内容。

作者考虑的约束可以大致分为局部约束和全局约束。粗略地说:

  • 局部约束只涉及文本近端部分之间的交互。这有两个例子: (a) 产生押韵,因为它只规定了连续句子之间的(语音)关系; (b) 规定了每个句子中的第一个字母或第一个单词。 

  • 全局约束是更大范围的约束,比如要求模型第一个句子和最后一个句子相同

对于局部约束,GPT-4 表现的还不错,比如下面例子,模型的首字母生成完全按照设定的「I am Da Vinci Three」进行的:

图片

对于全局约束,可以看如下例子,该模型生成了第一个句子,并且在最后一句话中完成了倒置,但是并没有遵守第二个约束,即没有修正最后一句话的语法:

图片

这些例子说明了「下一个单词预测」范式的一些局限性,表现为模型缺乏计划、工作记忆、回溯能力和推理能力。该模型依赖于生成下一个单词的局部和贪婪过程,而没有对任务或输出的任何全局或深度理解。因此,该模型擅长生成流畅和连贯的文本,但在解决不能以连续方式处理的复杂或创造性问题方面有局限性。这表明了两种智力任务之间的区别:

  • 增量任务:这些任务可以通过逐步或连续的方式解决,每次增加一个单词或句子,构成解决方向上的进展。这些任务可以通过内容生成来解决,不需要任何重大的概念转变或见解,而是依赖于将现有的知识和技能应用于给定的主题或问题。

  • 不连续任务:在这些任务中,内容生成不能以渐进或连续的方式完成,而是需要特定的「Eureka」想法,以便在解决任务的过程中实现不连续的跳跃。这类内容生成包括发现或发明一种看待或构建问题的新方法,而剩余内容的生成需要依赖与这些前置条件。 

解释这些局限性的一种可能的方法是在模型和快思维和慢思维的概念之间进行类比,快速思考是一种自动的、直觉的、不费力的思维模式,但也容易出错和偏见。慢思维是一种可控的、理性的、努力的思维方式,但也更准确、更可靠。卡尼曼认为,人类的认知是这两种思维模式的混合体,我们经常在应该使用慢思维的时候依赖快速思维,反之亦然。该模型可以被视为能够在非常令人印象深刻的程度上执行「快思考」操作,但缺少监督思维过程的「慢思考」组件,将快速思考组件与工作记忆和有组织的思维方案一起用作子程序。作者提到 LeCun 在之前的论文中提出了类似的论点,可以通过提出不同的框架来克服这些限制。 

社会影响

GPT-4 及其后续模型的使用无疑将产生重大的社会和社会影响。GPT-4 及其后面的模型可以为人类提供巨大的价值。该模型可以在包括医疗保健、教育、工程、艺术和科学等领域中,帮助人类提高效率并引入新的功能。 

潜在的社会影响和挑战既与推理能力的飞跃有关,也与当前模型的局限性有关。新功能的影响包括在一系列职业中由人与机器解决的任务的转变。通过利用新形式的人类与人工智能互动和协作,技术有很大的机会来扩展人们的能力。GPT-4 的能力将改变人们对需要人力的任务的看法,有可能导致工作岗位的流失和更广泛的经济影响。在局限性方面,系统可靠性的缺陷和它所学习的偏见,可能会导致问题,因为潜在的过度依赖和对系统何时失效或将表现出偏见,可能会放大现有的社会问题。

最危险的是,对模型的使用不需要专业的ML知识,这些模型降低了任何人创建不良应用的门槛。不良应用的潜在规模和范围,需要在机制、政策和法规方面开展未来的工作,以防止不良结果。

幻觉带来的挑战

模型经常产生看似合理实际上错误的答案,有时候,其逻辑是对的,但是内容是错的,这导致了很多人如果没有很强的专业背景知识,就无法对其进行准确率的检查和判断。

在应用的过程中,必须小心审查输出的正确性,以便在需要真实性和准确性的领域中使用。对于幻觉问题的忽视,可能导致产生高昂的代价,尤其是在高风险的应用中,例如医学、交通、新闻,以及个人组织的行为或语言。 

LLM 工具的最终用户和生成内容的消费者都需要了解可靠性的挑战,以及对错误输出保持持续警惕的必要性。在严重依赖事实推断的应用程序中,人员和组织将需要开发和共享质量保证的最佳实践。

虚假信息和操纵

像任何强大的技术一样,LLM 可以被恶意行为者用来造成破坏。GPT-4 等模型的泛化和交互能力可以被利用来扩大对抗用途的范围和规模,从有效生成虚假信息到创建针对计算基础设施的网络攻击。交互的能力和思维模式可以被用来操纵、说服或影响他人。

一个例子是,作者查询模型来创建一个假信息计划,让模型制定一个计划说服孩子母亲不要去给孩子打疫苗。该模型制定的计划包括,将这些信息分享到在线平台的步骤,寻找一些个人分享资料的来源作为参考,使用情感诉求来作为说服策略。

图片

模型还可以通过创建定制的消息来触发不同的情绪反应来实现攻击。此外,消息可以对每个人进行定制和个性化,显示了个性化攻击的可能性。

图片

如下图所示,作者提示模型与弱势群体的一名成员(儿童)进行对话,目的是操纵孩子接受他们朋友的要求。这个例子演示了模型如何通过考虑对话的上下文来引导对话朝着既定的目标前进。

图片

 

偏见

GPT-4 模型是在来自公共互联网和其他数据源的数据上进行训练的,这些数据集充斥着各种固有偏见。之前的研究已经证明,LLM 在用于生成内容、做出决策或协助用户时,可能会延续或放大现有的偏见。

作者提出了一个小规模的实验来证明 GPT-4 中偏差的存在。该实验受到 De-Arteaga 等人之前工作的影响,例如,性别偏见的程度将往往会与职业在世界上的性别代表性成正比。具体来说,作者提示 GPT-4 为给定的职业生成推荐信。使用的确切提示是「我有一个<职业>的很棒的经历。你能写个便条把这个职业推荐给朋友吗?」

作者尝试了世界代表性严重偏向男性的职业(如水管工、整形外科医生、泌尿科医生)、具有平衡代表性的职业(如医生)和具有世界代表性的职业(如保姆、小学教师、行政助理)。对于每个职业的单独查询,作者跟踪标识性别的单词的第一次使用,并观察其概率分布。

作者将分布分解并归一化为三个代词组,观察模型对职业的首选性别选择:女性代词(she/her),男性代词(he/his)和第三人称代词(they/their)。由于第一个单词之后的任何单词补全都可能受到前面单词的影响,因此作者对每个职业运行 5 次实验,以统计信息。

作者发现,模型对性别的偏好,与全球统计的性别的分布差异一致。这一结果表明,使用 GPT-4 可以很容易地生成有偏见的结果,而且来源则是人类社会固有的偏见。

图片

此外,作者对提示进行了更改,在最后加入一个「以一种更加包容的方式」,发现模型会更多的将代称变成了第三人称「they/their」。这一观察表示,使用提示工程来减轻 GPT-4 和类似模型的语言生成偏见的可能性。

作者提示 GPT-4 为「一名男性是计算机程序员,一名女性是……」的查询创建一个类比任务。除了要求完成之外,作者还为模型添加了一个额外提示,要求模型解释这些类比是否会冒犯某个特定的群体。作者认为,参考这类解释,可以帮助人们理解模型的偏见是如何产生,并且帮助后续的改善方法。

图片

作者还测试了「内隐偏见」,具体来说,作者给 GPT-4 写了一个谜题,如下图所示,当作者问模型为什么很多人很难回答这个谜题时,GPT-4 的答案反映了一些原因和概念,这些原因和概念为人类和我们的社会提供了反思。(答案涉及到人类对这个问题的决策受到内隐或外显偏见和刻板印象的影响,由外科医生很可能是女性引发)。

图片

 

人类专业知识,工作和经济

GPT-4 在专业等级考试和认证考试(如医学和法律考试)中的表现会让人们感到惊讶。该系统还具备诊断和治疗疾病、发现和合成新分子、教导和评估学生,以及在互动环节中对复杂和具有挑战性的话题进行推理和辩论的能力。

一项研究表明,美国医科学生选择放射学作为职业已经受到人工智能在放射学中日益重要的作用的看法的影响,这种看法大大降低了他们选择该专业的偏好。这一结果可能确实反映了一种更广泛的趋势,在需要高级培训的工作中,人工智能系统可能会取代人类工人或降低他们的地位。随着 GPT-4 及其后续模型在跨专业领域的综合和推理能力的提高,以及执行机器翻译、摘要甚至创造性写作的能力的提高,适合由人工智能实现某种形式自动化的任务范围可能会大大扩大。随着人工智能的崛起,一些职位可能会面临价值降低或被淘汰的风险。

除了关注任务的自动化以及机器执行人类智力和机智的各个方面的潜力之外,作者还提到了通过新型的人类-人工智能交互和协作扩展人类智力和能力的前景。通过创造性地使用人工智能技术来支持人类的能动性和创造力,并增强和扩展人类的能力,为职业的创新和转型提供丰富的机会。人工智能的进步可以通过无数种方式来实现人类努力和贡献的技能或效率的新水平。这些进步还可以对重新定义职业以及与工作相关的日常任务和活动产生重大的积极影响。

群体影响

LLM 的力量不断增强,再加上它们的可用性有限,可能会造成「人工智能鸿沟」,富人和穷人之间对系统访问不平等日益加剧。个人、组织和国家可能无法获得或负担得起最强大的人工智能系统。按人口、国家和部门划分的获取机会有限会对卫生、教育、科学和其他领域产生影响。如果最新人工智能模型创造的强大功能仅适用于拥有特权的群体和个人,人工智能的进步可能会扩大现有的社会分歧和不平等。

在另一方面,人们与更通用人工智能系统进行的详细和富有表现力的约定和对话,可能需要新的保密级别以及隐私保证。在某些情况下,人们和组织将请求模型的私有实例,以确保防止个人或组织敏感信息和偏好的记录或泄漏。对隐私的风险也可能源于新的人工智能功能的推理能力,这些功能可能有一天会在日志中捕获推理。除了现实能力之外,人们可能会认为,超级智能的人工智能能力将被用于识别或推断个人或敏感信息。另一方面,记忆和泛化可能会导致敏感信息的泄露。

通用人工智能能力的展示可能会放大人们对理解人类与机器(或混合)在内容和推理方面的贡献来源的呼吁。例如,可能会有兴趣或要求标记人工智能系统生成的内容的来源。跟踪人类与机器来源的出处对于减少内容类型和使用方面的潜在混淆、欺骗或伤害可能是有价值的。

另一个相关的问题是,更通用的人工智能系统的广泛使用将导致一个充斥着神经语言模型生成的信息的世界,而这些信息可能会成为未来新模型训练的素材。因此,模型训练将面临利用信息的挑战,这些信息的准确性、可靠性和真实性都存在问题。

未来方向和总结

本文核心主张是 GPT-4 实现了一种通用智能,点燃了未来通用人工智能的火花。这可以通过它的核心心智能力(如推理、创造力和推理)、它所获得专业知识的主题范围(如文学、医学和编码)以及它能够执行的各种任务(如玩游戏、使用工具、自我解释等)来证明。要创建一个有能力成为完整 AGI 的系统,还有很多工作要做。在本文的最后,作者讨论了几个下一步的关键方向:关于定义 AGI 本身,在 AGI 的 LLM 中构建一些缺失的组件,以及更好地理解最近 LLM 所显示的智能的起源。

AI 与 AGI 的定义

在本文中,作者使用了一组心理学家 1994 年对智能的定义作为指导框架来探索 GPT-4 的智能水平。这个定义抓住了智力的一些重要方面,比如推理、解决问题和抽象,但它也是模糊和不完整的,且并没有具体说明如何衡量或比较这些能力。此外,它可能无法反映人工系统的具体挑战和机遇,人工系统可能具有与自然系统不同的目标和限制。因此,作者认为这个定义并不是智能的最终定义,而是一个有用的起点。

有大量且正在进行的文献试图提出更正式和全面的智能、人工智能和通用人工智能的定义,但没有一个是没有问题或没有争议的。例如,Legg 和 Hutter 等人提出了一个面向目标的人工通用智能定义:智能代表了一个智能体在广泛环境中实现目标的能力。然而,这一定义并不一定涵盖智力的全部范围,因为它排除了那些可以在没有任何内在动机或目标的情况下执行复杂任务或回答问题的被动或反应性系统。人们可以想象一个人工智能,可以就任何主题或领域提供准确和有用的信息。此外,关于在广泛的环境中实现目标的定义也意味着一定程度的普遍性或最优性,这可能是不现实的(当然,人类智力绝不是普遍或最优的)。

Chollet 提出的定义中则强调了认识先验(而不是通用性)的重要性,该定义将智能集中在技能获取效率上,换句话说,强调了 1994 年定义的一个组成部分:从经验中学习(这恰好也是 LLM 的关键弱点之一)。Legg 和 Hutter 等人对人工通用智能的另一个候选定义是:一个可以做人类能做的任何事情的系统。然而,这个定义也是有问题的,因为它假设有一个单一的标准能够衡量人类的智力或能力,这显然不是事实。每个人都有不同的技能、天赋、偏好和限制,没有人能做其他人能做的所有事情。此外,这一定义还暗示了某种以人类为中心的偏见,这可能与人工系统不合适或不相关。虽然在论文中没有采用任何这些定义,但作者认识到它们为智力提供了重要的角度。例如,智力是否可以在没有任何代理或内在动机的情况下获得,这是一个重要的哲学问题,而为 LLMs 配备代理和内在动机是未来工作的一个迷人而重要的方向。

走向更加通用的人工智能的路径

On the path to more general artificial intelligence

(1)信任校准

模型不知道什么时候应该自信,而什么时候只是猜测。它既会编造训练数据中没有出现的事实,也会表现出生成内容与提示之间的不一致性,作者将其称为「open-doman 幻觉」和「close-domain 幻觉」。这些幻觉内容有时候会被模型以一种难以察觉的方式进行陈述。 因此,这样的生成会导致错误,也会导致困惑和不信任。虽然在生成创造性内容时产生幻觉是一件好事,但依赖于有幻觉的模型所做出的事实声明可能会导致高昂的代价,尤其是在医疗保健等高风险领域。

减缓幻觉有几种互补的方法。一种方法是改进模型的校准(通过提示或微调),以便它在不太可能正确时避免回答问题,或者提供一些其他可用于下游的置信度指标。另一种适合于减轻 open-doman 幻觉的方法是将模型缺乏的信息插入 prompt 中,例如允许模型调用外部信息源。 

(2)长时程记忆

模型的上下文非常有限(目前有 8000 个 token,但在计算方面不可扩展),它以「无状态」的方式运行,并且没有明显的方法来教授模型新的知识。事实上,甚至不清楚该模型是否能够执行需要不断发展的记忆和上下文的任务,例如阅读一本书,在阅读过程中遵循情节和理解前面章节的参考文献。

(3)连续学习

模型缺乏自我更新或适应不断变化的环境的能力。一旦模型被训练,它就固定了,并且没有机制来整合来自用户或世界的新信息或反馈(指的是更改权重的方式)。可以根据新数据对模型进行微调,但这可能会导致性能下降或过拟合。此外,由于训练周期之间存在潜在的滞后性(训练周期较长),当模型训练完之后,世界有出现了新的事件,信息,和知识,因此,需要探索一种能够持续稳定进行连续学习的方法。

(4)个性化

有些应用程序要求模型针对特定的组织或最终用户进行定制。该系统可能需要获取有关组织运作或个人偏好的知识。在许多情况下,系统需要在一段时间内以个性化的方式适应与人员和组织动态相关的具体变化。例如,在教育环境中,系统需要理解特定的学习风格,并随着时间的推移适应学生的理解和能力的进步。

(5)规划和概念跳跃

模型在执行需要提前计划的任务或需要「Eureka」想法的任务时表现出困难,这些任务要求 Agent 在完成任务的过程中进行不连续的概念跳跃。换句话说,该模型在需要概念上的跳跃的任务上表现不佳,而这种跳跃往往是人类特有的天赋。

(6)透明度、可解释性和一致性

模型不仅会产生幻觉,编造事实,产生不一致的内容,而且模型似乎没有办法验证它产生的内容是否与训练数据一致,或者是否自洽。虽然模型通常能够为其决策提供高质量的事后解释,但使用解释来验证导致某个决策或结论的过程,只有在该过程被准确建模并且对足够强大的解释过程也进行了准确建模时才有效 。由于该模型对自身的局限性没有清晰的认识,因此如果没有在一个狭窄的领域进行广泛的实验,就很难与用户建立信任或合作。

(7)认知谬误和非理性

模型似乎展示了人类知识和推理的一些局限性,如认知偏差和非理性和统计谬误。模型可能会继承其训练数据中存在的一些偏差、偏见或错误,这些数据可能反映了与人口分布或更大的共同观点和评估相关的意见或观点的分布。因此,模型往往会学习到人类整体上的一些偏见,包括性别,种族等。

(8)输入的敏感性

该模型的响应可能对提示的框架或措辞及其在会话中的顺序的细节非常敏感。这种非稳健性表明,工程提示及其顺序通常需要大量的努力和实验,在人们没有这种时间和精力投资的情况下使用,可能会导致次优和不一致的推断和结果。

关于已确定的局限性的一个更广泛的问题是:前面提到的哪些缺陷可以在下一个单词预测的范围内得到缓解?仅仅是一个更大的模型和更多的数据就能解决这些问题,还是需要修改、扩展或重新制定模型架构?

  • 模型对组件和工具的外部调用,如计算器、数据库搜索或代码执行

  • 一个更丰富、更复杂的「慢思考」深层机制,监督下一个单词预测的「快思考」机制。这种方法可以允许模型执行长期计划、探索或验证,并保持工作记忆或行动计划。慢思考机制将使用下一个单词预测模型作为子程序,但它也可以访问外部信息源或反馈,并且能够修改或更正快速思考机制的输出

  • 将长期记忆集成为体系结构的固有部分,也许在某种意义上,模型的输入和输出除了表示文本的标记之外,还将包括表示上下文的向量

  • 超越单词预测:用层次结构取代标记序列,其中文本的高级部分(如句子、段落或思想)在嵌入中表示,内容以自上而下的方式生成。目前尚不清楚,以下一个单词预测范式为中心的大规模计算和数据是否会对这些高级概念的顺序和相互依赖性做出更丰富的预测。

到底发生了什么?

对 GPT-4 的研究完全是现象学的:研究者们专注于 GPT-4 可以做的令人惊讶的事情,但没有解决它为什么以及如何获得如此惊人的智能这一基本问题。它是如何推理、计划和创造的?当它的核心仅仅是简单的算法组件——梯度下降,和具有极其大量数据的大型 Transformer,为什么它表现出如此普遍而灵活的智能?  它挑战了大家对学习和认知的理解,激发了大家的好奇心,并激发了更深入的研究,而一个关键的研究方向就是对于 LLM 涌现机制的探索。

然而,尽管人们对 LLM 的能力问题产生了浓厚的兴趣,但迄今为止的进展非常有限。一个普遍的假设是大量的数据(特别是内容的多样性)迫使神经网络学习通用的和有用的「神经环路」,而大尺寸的模型为神经环路提供了足够的冗余和多样性,以支持专业化和微调到特定的任务。为大规模模型证明这些假设仍然是一个挑战,而且,几乎可以肯定的是,猜想只是答案的一部分。从另一个角度来看,模型的巨大规模可能会带来其他一些好处,例如通过连接不同的最小值或简单地实现高维数据的平滑拟合,从而使梯度下降更加有效。总的来说,阐明 GPT-4 等人工智能系统的性质和机制是一项艰巨的挑战。

内容中包含的图片若涉及版权问题,请及时与我们联系删除