谷歌下一代AI架构、Jeff Dean宣传大半年的Pathways终于有论文了

在谈及当前的 AI 系统所面临的问题时，低效是经常被提及的一个。

谷歌人工智能主管 Jeff Dean 曾在一篇博文中写道，「今天的人工智能系统总是从头开始学习新问题 —— 数学模型的参数从随机数开始。就像每次学习一项新技能（例如跳绳），你总会忘记之前所学的一切，包括如何平衡、如何跳跃、如何协调手的运动等，然后从无到有重新学习。这或多或少是我们今天训练大多数机器学习模型的方式：我们不是扩展现有模型来学习新任务，而是从无到有训练新模型来做一件事（或者我们有时将通用模型专门用于特定任务）。结果是我们最终为数千个单独的任务开发了数千个模型。以这种方式学习每项新任务不仅需要更长的时间，而且还需要更多的数据。」

为了改变这种局面，Jeff Dean 等人去年提出了一种名叫「Pathways」的通用 AI 架构。他介绍说，Pathways 旨在用一个架构同时处理多项任务，并且拥有快速学习新任务、更好地理解世界的能力。

该架构的特点可以概括为：

能够训练一个模型来做成千上万件事情；
当前模型只注重一种感官，Pathways 可做到多种；
当前模型密集且效率低下，Pathways 会把模型变得稀疏而高效。

在发布想法大半年之后，Jeff Dean 终于公布了 Pathways 的论文，其中包含很多技术细节。

论文链接：https://arxiv.org/pdf/2203.12533.pdf

论文写道，PATHWAYS 使用了异步算子的一个分片数据流图（sharded dataflow graph），这些算子消耗并产生 futures，并在数千个加速器上高效地对异构并行计算进行 gang-schedule，同时在它们专用的 interconnect 上协调数据传输。PATHWAYS 使用了一种新的异步分布式数据流设计，它允许控制平面并行执行，尽管数据平面中存在依赖关系。这种设计允许 PATHWAYS 采用单控制器模型，从而更容易表达复杂的新并行模式。

实验结果表明，当在 2048 个 TPU 上运行 SPMD（single program multiple data）计算时，PATHWAYS 的性能（加速器利用率接近 100%）可以媲美 SOTA 系统，同时吞吐量可媲美跨越 16 个 stage 或者被分割成两个通过数据中心网络连接的加速器岛的 Transformer 模型的 SPMD 案例。

中文详细解读点击这里。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

谷歌下一代AI架构、Jeff Dean宣传大半年的Pathways终于有论文了

评论