AI系统内容推荐第14期

一、项目

0、OneFlow：从零重新设计分布式深度学习框架

【OneFlow深度学习框架论文正式公开】基于 SBP（split, broadcast和partial-value）抽象和actor模型，一流科技研发出拥有各种并行范式的OneFlow分布式深度学习框架。SBP 使数据并行和模型并行的编程比现有框架更容易，并且actor提供了一套简洁的运行时机制来管理分布式深度学习中的资源约束、数据搬运和计算所施加的复杂依赖关系。通过案例研究和大量实验证明，#OneFlow# 在训练各种大型 #DNN# 模型方面的普遍适用性和效率。结果表明，OneFlow 的性能优于许多建立在原有框架之上的知名定制库。

论文：https://arxiv.org/pdf/2110.15032.pdf

代码：https://github.com/Oneflow-Inc/oneflow

1、高效并行训练AI大模型——“夸父”AI系统 (Colossal-AI)

潞晨科技发布大规模并行AI训练系统——“夸父”(Colossal-AI) ，通过多维并行、大规模优化器、自适应任务调度、消除冗余内存、降低能量损耗等方式，旨在打造一个高效的分布式人工智能训练系统，作为深度学习框架的内核，帮助用户在最大化提升人工智能训练效率的同时最小化训练成本。

论文：https://arxiv.org/pdf/2110.15032.pdf

代码：https://github.com/hpcaitech/ColossalAI

2、腾讯发布超大预训练系统派大星，性能优于微软DeepSpeed

该开源项目将聚焦解决GPT、BERT等超大模型训练时产生的“GPU内存墙”问题，使用更为创新的异构内存管理方法，让相同配置的机器能够训练更大的模型，以更节能环保的方式让预训练模型普惠每位NLP社区用户。经测试结果显示，派大星性能表现优于微软DeepSpeed，在不到5000元价位的个人游戏电脑上，即可训练一个7亿参数的GPT模型。

链接：https://mp.weixin.qq.com/s/xdp1JhcdjPdiH0rIln4qog

3、Jeff Dean亲自揭秘谷歌下一代AI架构：通用、稀疏且高效

谷歌人工智能主管 Jeff Dean 在一场 TED 演讲上曾表示，我们当前的 AI 只是触及了皮毛，他还透露谷歌正在开发一种灵活的多用途人工智能，可以执行数百万个任务。Google 的解决方案称为 Pathways，旨在将不同的 AI 集中到一个强大的、无所不知的算法中。

链接：https://mp.weixin.qq.com/s/fsV0R40HHu0kCTXMoeMiHA

4、Microsoft AI 开源“PyTorch-DirectML”：在 GPU 上训练任一机器学习模型

PyTorch-DirectML通过调用运算符时引入最小开销来调用直接 ML API 和 Tensor 原语；它们的工作方式与其他现有后端非常相似。

链接：https://github.com/microsoft/DirectML

5、Google Brain发布多任务模型框架TAG，少训2000个小时也能SOTA

对于如何有效地训练多任务，Google Brain团队在NeurIPS 2021上发表了一篇论文，提出了一个新方法，能够在多任务神经网络中确定哪些任务可以一起训练。

链接：https://mp.weixin.qq.com/s/vHhkxUjq5gkihR52wQvE6w

6、Google 开源 SCENIC：用于快速计算机视觉模型原型设计和前沿研究的 JAX 库

JAX 目前支持 ViT、DETR 和 MLP Mixer 等最先进的视觉模型的实现。

论文：https://arxiv.org/abs/2110.11403；

代码：https://github.com/google-research/scenic

7、用于定量建模有机化学反应的深度主动学习框架DeepReac+

在这项工作中，作者开发了首个用于定量建模有机化学反应的深度主动学习框架DeepReac+。该框架借助图神经网络，直接将反应组分的二维分子结构作为输入, 端到端的学习与任务相关的反应表征，适用于不同的反应机理、预测目标和实验平台。而且，通过结合精心设计的主动学习(Active Learning)策略，该框架只需要用少量的训练样本就能得到最佳预测性能以及快速确定最优反应条件，可以为高通量合成反应的实验人员节省大量的成本和时间。

链接：https://doi.org/10.1039/D1SC02087K

二、分析

0、在ViT、MLP-Mixer等进行4800多次实验，谷歌发现大规模预训练存在瓶颈

该研究提出了一个可用于下游任务性能的模型，该模型能够反映饱和现象，并且该模型还能捕获上游和下游任务性能的非线性关系。该研究通过深入研究导致这些现象的原因，观察到这种饱和行为与通过模型层演变的表示方式密切相关。此外，该研究还展示了一个更极端的场景，即上游和下游任务的性能相互矛盾，也就是说，为了获得更好的下游性能，我们需要损害上游的准确率。

链接：https://arxiv.org/pdf/2110.02095.pdf

1、如何实现比PyTorch快6倍的Permute/Transpose算子？

本文会介绍OneFlow中优化Permute Kernel的技巧，并跟PyTorch的Permute，原生的Copy操作进行实验对比。结果表明，经过深度优化后的Permute操作在OneFlow上的速度和带宽利用率远超PyTorch，带宽利用率能够接近原生Copy操作。

链接：https://mp.weixin.qq.com/s/euAVmS37lQu1Ad2k9MzVBQ

2、CUDA高性能计算经典问题①：归约

本文选取求总和为例子编写代码，相比内存访问，由于数值加法并不是很重的计算，所以这个问题中，主要注意的是如何利用好各级Memory的带宽。

链接：https://mp.weixin.qq.com/s/U_muqQOT07eLY2jj_tqSag

3、CUDA高性能计算经典问题2：前缀和（Prefix Sum）

Prefix Sum, 也被称为Scan/Prefix Scan等。Scan 是非常多重要问题比如排序的子问题，所以基本是进阶必学问题之一。

链接：https://zhuanlan.zhihu.com/p/423992093

4、GPU架构演进十年，从费米到安培

随着软件从1.0进化到2.0，即从图灵机演进到类深度学习算法。计算用的硬件也在加速从CPU到GPU等迁移。本文试图整理从2010年到2020年这十年间的英伟达GPU架构演进史。