在谈及当前的 AI 系统所面临的问题时,低效是经常被提及的一个。
谷歌人工智能主管 Jeff Dean 曾在一篇博文中写道,「今天的人工智能系统总是从头开始学习新问题 —— 数学模型的参数从随机数开始。就像每次学习一项新技能(例如跳绳),你总会忘记之前所学的一切,包括如何平衡、如何跳跃、如何协调手的运动等,然后从无到有重新学习。这或多或少是我们今天训练大多数机器学习模型的方式:我们不是扩展现有模型来学习新任务,而是从无到有训练新模型来做一件事(或者我们有时将通用模型专门用于特定任务)。结果是我们最终为数千个单独的任务开发了数千个模型。以这种方式学习每项新任务不仅需要更长的时间,而且还需要更多的数据。
为了改变这种局面,Jeff Dean 等人去年提出了一种名叫「Pathways」的通用 AI 架构。他介绍说,Pathways 旨在用一个架构同时处理多项任务,并且拥有快速学习新任务、更好地理解世界的能力。
该架构的特点可以概括为:
  • 能够训练一个模型来做成千上万件事情;

  • 当前模型只注重一种感官,Pathways 可做到多种;

  • 当前模型密集且效率低下,Pathways 会把模型变得稀疏而高效。

在发布想法大半年之后,Jeff Dean 终于公布了 Pathways 的论文,其中包含很多技术细节。
论文链接:https://arxiv.org/pdf/2203.12533.pdf
论文写道,PATHWAYS 使用了异步算子的一个分片数据流图(sharded dataflow graph),这些算子消耗并产生 futures,并在数千个加速器上高效地对异构并行计算进行 gang-schedule,同时在它们专用的 interconnect 上协调数据传输。PATHWAYS 使用了一种新的异步分布式数据流设计,它允许控制平面并行执行,尽管数据平面中存在依赖关系。这种设计允许 PATHWAYS 采用单控制器模型,从而更容易表达复杂的新并行模式。
实验结果表明,当在 2048 个 TPU 上运行 SPMD(single program multiple data)计算时,PATHWAYS 的性能(加速器利用率接近 100%)可以媲美 SOTA 系统,同时吞吐量可媲美跨越 16 个 stage 或者被分割成两个通过数据中心网络连接的加速器岛的 Transformer 模型的 SPMD 案例。
中文详细解读点击这里。

内容中包含的图片若涉及版权问题,请及时与我们联系删除