资讯 | 解决 LLM 的创造力悖论（Creativity Paradox）——AGI 的下一个前沿

LLM 的创造力在哪里？

今天我让 ChatGPT (4o) 发明量子引力，它做到了。

初看之下，结果显得令人印象深刻；它基于现有的量子泡沫概念，以新颖的方式将其应用，就像一个物理学家会做的那样。它甚至还提出了一些潜在的实验来执行。

对于我向 Claude、ChatGPT、Grok 或 Gemini 提出的每一个重大科学挑战，最先进的（SOTA）LLMs 都给出了看似合理的假设和实验。

这就提出了一个问题：为什么没有 LLM 科学家们四处奔走，革新科学？

原因：LLMs 在迭代创造力方面存在困难。

科学方法基于一个不断循环的工作、测试、学习和修订的过程。一个假设可能需要数年才能成熟为一个理论，而微小的修订几乎每天都在发生。

LLMs 缺乏对试错循环的基本理解，而这种循环是人类创造新知识的天性。

在这篇文章中，我将探讨人类创造力的驱动力，定义什么是创造力，解释 LLMs 的不足之处，并介绍一种解决创造力挑战的最新方法。

首先，让我们从人工智能中退一步，考察原始的人类创造力。

我们是如何学会创造的

作为婴儿，我们对世界知之甚少，主要只是本能地四处摸索。我们几乎无法移动微小的肢体，也无法记住任何东西，因为没有东西可记。

我们天生拥有一个小的知识空间——我们所知道和理解的事物，以及一个小的行动空间——我们可以执行以解决问题。但作为回报，我们被赋予了极其灵活的大脑用于学习（神经可塑性）。

在儿童和机器学习中，存在两种普遍接受的学习范式：

模仿学习——观察父母或阅读书籍。你相信来源可能是正确的，并复制他们的知识或行为。（监督和非监督机器学习）
试错学习——通过走许多弯路发现去公园的方法，从错误中学习，更新我们的内部指南，最终找到正确的路径。（强化机器学习）

小时候，我们愚蠢地行动，受伤，从错误中学习，然后尝试其他方法。这个试错的核心循环是我们综合新知识的天生方式。这巩固了知道与做的联系，扩展了知识和行动的领域。

但长大后，我们被送到学校，主要转向模仿学习。原因是模仿节省时间。因为我们信任老师和教科书，可以跳过试错探索，直接得到结果。

下次，当我们想参观一个新公园时，我们可以读地图直接前往，而不是花一整天闲逛。这种将知识从一个人传递给另一个人，无论时间的流逝，使我们变得特别。

一旦我们中的一个人发现了某件事，我们都将无限期地受益。

但这种方法存在一个问题。

虽然模仿学习在知识迁移方面高效且稳健，但它并不是发现新知识的途径。

如果我们想参观一张地图上没有标注的公园呢？我们可以在谷歌地图上搜索，询问老师或朋友，但如果没有人知道怎么去那里，那么就没有可以模仿的东西。

我们只能依靠试错。

有多种方法可以进行试错；我们可以直线前进，走向最近的绿化区，或跟随指示牌前往可能设有公园的地方。找到公园的方法不止一种，但有些方法需要更长时间，而有些可能永远找不到。因此，人们自然会想到一种方法来评判我们方法的有效性——创造力。

创造力的衡量

从根本上，我将创造力定义为生成原创、优质知识的能力。

大多数关于创造力的流行定义都围绕着原创性这一概念，这是正确的但不完整。很多想法是原创的，但很多原创的想法也很糟糕。仅仅原创是不够的，你还需要创造价值。

许多人写歌，但创意艺术家创作热门歌曲，只有最优秀的艺术家才能创作出改变人们生活的杰作。

当然，这意味着创造力往往是一个主观的衡量标准。我最喜欢的乐队可能不是你的，每个人对事物的评价也不同。然而，只要一个原创想法能够产生足够的价值，它就可以被认为是具有创造力的。

总而言之，我认为有两点定义了一个实体在某个领域的创造力：

知识库的覆盖范围和鲁棒性。
合成新知识的行动空间效率。

伟大的音乐家通常拥有远超普通人范围的音乐知识，他们结合、修改和引导过去的声音创造新音乐的能力非常非凡。

虽然创造力在艺术表达中是主观的，但在科学探索中却是客观的。如果一个假设未能解决问题或符合观察结果，那么它就不是好的假设，没有人会对此提出异议。

继续探讨 LLMs，我将主要考察它们客观的科学创造能力，而有趣的图像生成就留给你自己评判。

接下来，让我们更深入地了解 LLMs 是如何理解世界的。

LLM 悖论：知识优越，行动有限

从根本上说，所有深度学习模型都是通过在有限的内部维度（神经元权重）中保留大量信息（训练数据）来工作的，这迫使模型将事实压缩成概念。LLMs 也不例外，但它们有一个秘密武器——Transformer。

Transformer 具有一种注意力机制，用于识别训练数据不同部分之间的关系。它的扩展效率非常高，以至于我们首次可以使用几乎整个互联网来训练模型。

在这里我不会过多地深入 transformer 的技术细节，但这里是一个关于 LLM 基础模型（未经微调）训练的高层次概述。

LLM 接收一些数据序列（token）。
它将 token 逐个通过其“注意力”机制（键、查询、值张量），该机制随后学习当前 token 和过去 token 之间的某种模式。
它随后预测下一个标记，并将预测结果输入到损失函数（下一个标记预测）中。
损失函数追踪预测标记与实际标记之间的误差，并将误差报告给 LLM。
LLM 随后调整其内部参数（权重）以降低误差（反向传播）。
重复步骤 1-4，直到整体误差足够低或训练数据用尽。

这里简化了许多基本概念。如果你对转换器的技术方面感兴趣，强烈推荐 3blue1brown 的转换器视频系列https://www.youtube.com/watch?v=wjZofJX0v4M&t=98s。

ChatGPT、Gemini、Claude 或 Grok 在组织其权重的方式上可能有不同的架构，但它们都遵循相同的训练周期。

我们将这一阶段称为 LLM 的模仿学习，其中模型试图将现有知识转移到内部表示中。由于在几乎整个互联网上进行训练，现代 LLM 最终会拥有远超任何人类的知识库。

研究知识库如何在 LLM 的内部参数中编码是一个活跃的研究领域，被称为机制可解释性https://www.anthropic.com/research/mapping-mind-language-model。

然而，这种训练方法存在一个人们很少谈论的重大陷阱：

LLMs 是基于结果进行训练，而非方法。

当大多数人将内容发布到互联网上时，他们发布的是结果，而不是其背后付出的数年工作。

想想写一本书需要付出多少工作，所有的草稿，所有的修改，所有在作者脑海中形成又被拒绝的想法。现在想想实际出版的书，它或许讲述了一个精彩的故事，但很少提及作者是如何写成的。

即使是方法与实验都清晰记录的学术论文，也无法在一篇二十页的论文中记录科学家每天必须克服的数百个心理障碍。

普通人回答 Reddit 上的问题时，也不会给出详细的理由。（而 SOTA LLMs 大量参考了这一点）

由于大量的训练数据集中在结果而非方法上，LLMs 通过拥有惊人的事实知识量来反映这种分布，但缺乏关于这些事实是如何被发现的信息。

结果灾难性。

基于结果训练的后果

当我们让一个预训练的 LLM 计算 2 × 4 时，它不会像我们一样拿出计算器或进行心算。相反，它会搜索其知识空间，找到与乘法概念以及数字 2 和 4 相关的过去数据集合，并提供最可能的答案——8。

这正是 LLMs 有时在简单任务上失败的原因，例如数单词。因为它是在基于标记（不同于单词）进行训练的，并且缺乏任何计数逻辑，所以它会搜索最可能的内部关系，而不是实际计数。

最先进的模型通常通过工具使用来解决这些问题——通过外部工具（Python 编程）来固定逻辑。这是一种修补已知逻辑缺陷的临时解决方案，但当 LLMs 遇到超出工具能力的逻辑问题时，就会遇到问题。

创造力依赖于知识和行动空间。LLM 拥有惊人的知识空间，但其行动空间仅包含一个行动：下一个词预测。

而词预测是一个单次通过、浅层思考过程。

人类在思考时，会并行运行不同的思考过程，有些缓慢而系统，另一些则快速而果断。不同的思考框架协同工作，以增强我们的问题解决能力。

Token 预测在功能上类似于大脑的皮质柱。给定过去的刺激，它试图预测下一个刺激。

序列预测是思维的基石，但皮质柱无法独自形成复杂思维，LLM 也无法。

如果你想了解更多关于皮质柱和大脑的知识，强烈推荐杰夫·霍金斯（Jeff Hawkins）的书：《一千个大脑》https://www.numenta.com/resources/books/a-thousand-brains-by-jeff-hawkins/。

总之，基础 LLM 无法形成复杂思想，加上深层逻辑缺陷，意味着它不能使用试错方法。

为了开始寻找解决方案，让我们考察基础模型如何通过强化学习进行微调。

通过人类反馈的强化学习

当基础模型被训练时，它生成的标记直接反映其训练数据，这意味着模型也可能反映客观有害数据。

为了确保模型输出的 token 是无害的、有帮助的，并且符合人类偏好，使用了通过人类反馈的强化学习（RLHF）。训练周期如下。

准备：

获取一个包含人类偏好的自定义数据集。这可以表现为一个包含偏好和非偏好回答的问答形式。
在自定义数据集上训练一个奖励模型，以判断 LLM 回答的质量。

训练：

基础 LLM 对问题生成一个响应。
奖励模型给响应一个对齐分数。
基础 LLM 更新其权重以生成更对齐的响应。
重复步骤 1-3，直到达到平均对齐阈值。

这里简化了许多技术细节，因此若想深入了解 RLHF，可以查看 Hugging Face 的深度强化学习课程https://huggingface.co/learn/deep-rl-course/en/unitbonus3/rlhf。

通过这种方式，基础模型可以从自己的行为中学习，并输出对人类有帮助的标记，而无需直接模仿偏好数据。

这是一种将试错过程融入 LLM 训练的可行方法；然而，它也存在一个关键缺陷：RLHF 过程一结束，学习就会停止。

模型可能通过外部设定的试错过程学到了有益的校准，但 LLM 并没有学会如何为其他事情进行试错。

用一句老话说，我们给 LLM 提供了更多的鱼，而不是教它如何捕鱼。

到目前为止，我讨论了 LLM 的许多缺陷，通往 LLM 科学家的道路充满危险。

然而，这并不意味着真正的创造力不可能实现。

超越计划 A：LLMs 中的隐藏原创性

最近 Anthropic 的一档播客中提到 LLM 的回应会形成不同的“计划”。我认为这个类比非常准确地描述了 LLMs 的统计特性。

当我们第一次向 ChatGPT 或 Claude 提问时，它最有可能给出计划 A——这是统计上最可能的结果，经过微调以尽可能“正确”。这意味着计划 A 更倾向于那些被证明有效的流行事物。

计划 B 的正确性和已被证明的概率略低，其次是计划 C，其概率更低，以此类推。

LLM 选择特定计划的可能性通常与“温度”——即标记选择过程的随机性相一致。温度越高，答案越随机，因为不太可能的标记被更频繁地选中。

当我要求 Claude Sonnet 生成一个生物神经元的 Python 脚本时，它的计划 A 是创建一个人工的“点神经元”。这就是传统上在深度学习中表示神经元的方式。尽管点神经元对生物神经元的近似很差，Claude 还是难以想象任何不同的东西。

然而，LLM 的这种内部偏见并不意味着它不能超越现状；只是这种能力被隐藏起来了。

假设我们能迫使 LLM 放弃计划 A 到计划 D，并继续执行计划 E。在这种情况下，它正确回答问题的可能性非常低，因为它虽然在其训练数据中找到了一些模式，但这些模式并不流行/足够一致，以至于不能成为被接受的解决方案。因此，计划 E+失败的可能性极高，但这种可能性不是 100%。

由于 Plan E+发现了一些统计上不太可能，但确实存在的相关性，因此存在两种可能的情况：

有人尝试了这个想法但失败了，所以没有人真正采用它（99%的情况下）
这是一个之前没有人尝试过的原创想法（1%）

例如，如果你问哪些动物会飞，并且排除了所有鸟类的答案（Plan A 到 D），那么一个高温 LLM 可能会建议一条鱼。

我们可能首先会认为这完全不对，但随后会意识到飞鱼确实存在。虽然大多数鱼不会飞，但 LLM 却回忆起了一种会飞的鱼。

如果你向一个孩子提出同样的问题，他们回答说是“飞鱼”，你甚至可能认为他们很有创造力。

总而言之，虽然最初的创意可以在注意力机制中找到，但三个关键缺陷阻止了 LLM 的创造性过程。

基于结果而非方法进行训练。
浅层 token 预测思维。
微调以追求正确性。

我们如何解决这些根本问题并鼓励 LLMs 倾向于创造力？

谷歌的 DeepMind 有一个有趣的方法。

我将跳过“思维链”和其他提示技术，因为它们让 LLMs 在循环中进行了更多 token 传递来“思考”。然而，它仍然试图得到一个正确答案，而不是促进原创想法。

前进之路：Alpha Evolve 及更远

当 AlphaGo 最终在围棋比赛中击败李世石时，它并非仅凭模仿。AlphaGo 在试错循环中与自己进行了数千场比赛，由此诞生了震惊世界的著名招式 37。这是一个人类玩家绝不会做出的招式，但它直接导致了 AlphaGo 的胜利。

而且它甚至还没有拥有 Transformer。

需要在此处注意的关键是，AlphaGo 不仅使用了深度神经网络，还使用了一种外部搜索算法——蒙特卡洛树搜索。

这种组合使 AlphaGo 能够展现出 AI 首次被普遍认可的创造力表现。第 37 步既具有原创性，又对赢得比赛具有重要价值。

现在，DeepMind 将这种方法又向前推进了一步，并将其应用于 LLM，即 Alpha Evolve。

就像 AlphaGo 一样，Alpha Evolve 在 LLM 之上使用外部搜索算法来生成新的搜索空间。在这种情况下，进化算法充当了 LLM 的试错逻辑。

基本的 AlphaEvolve 流程图如下：

初始化——用户提供初始解决方案以及评估它的方法。
提示采样——采样器从程序数据库中获取程序来构建新的提示。
LLM 修订——LLM 的集合接收提示并生成新的解决方案。
评估 — 评估者对新方案进行评分，只有有潜力的方案才会被注册回程序数据库。
继续步骤 2-4，直到达到期望的评估分数。

来自 AlphaEvolve 白皮书的

让我们看看 AlphaEvolve 如何解决我们之前列出的三大主要障碍：

1- 基于结果而非方法进行训练。

进化搜索算法是一种试错方法，与 RLHF 不同，它直接赋予 LLMs 在各种问题上进行试错学习的能力，而不仅仅是对齐。

2- 浅层 token 预测思维。

集成方法结合快速思考的广度优先搜索 LLMs 与 SOTA 深度优先 LLMs，模拟出多样化的低层思维。
进化搜索算法模拟了一种高级思维过程，该过程利用较低级别的 LLM 输出来规划未来策略。
程序数据库作为长期记忆，追踪整个系统的过去知识和失败。

3- 朝正确性进行微调。

进化搜索算法促进探索，并为价值生成提供不同的评估指标，而不是依赖于微调的校准。

AlphaEvolve 的核心洞察不在于将 LLMs 视为一个完整的独立思考者，而应将其视为一个更大推理框架的组成部分。

根据 DeepMind 的论文(https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf)，Alpha Evolve 已经发现了用于解决一系列数学问题的新算法，以及优化谷歌现有系统的新方法。

这证明了 LLMs 内部蕴藏着尚未发掘的创造力，只要拥有合适的框架，我们就能释放它们真正的创造潜能。

未来

人工智能的圣杯始终是科学发现。

想象一下，如果我们能够克隆世界顶尖科学家，让他们全天候无休止地解决全人类面临的最棘手问题。

进步的速度将史无前例，甚至我们可能在有生之年抵达星辰。

但首先，我们必须解决创造力问题。

微信群

内容中包含的图片若涉及版权问题，请及时与我们联系删除

资讯 | 解决 LLM 的创造力悖论（Creativity Paradox）——AGI 的下一个前沿

评论