AI系统内容推荐第16期：深度学习编译器综述；为什么说大模型训练很难；最理想的点到点通信库究竟是怎样的

1、没有这个传奇工程师，就没有今天的Windows

1988年，在盖茨的招募下，他来到微软，历时5年花费1.5亿美元，领导200多位工程师开发出有430万行代码的Windows NT。其技术革命性严重冲击了Novell的Netware和UNIX操作系统的地位，为微软带来不可估量的商业价值，影响着超过20亿人的计算体验。也因此，他成为迄今为止唯一一位享有微软Senior Technical Fellow头衔的工程师，待遇比肩集团VP。微软前CEO鲍尔默更是直言，没有他，就没有今天的微软。

链接：https://mp.weixin.qq.com/s/ST5tiHr9bYIYZa0aAoG8mg

2、高级API、异构图：谷歌发布TF-GNN，在TensorFlow中创建图神经网络

TensorFlow 官方博客发布了 TensorFlow Graph Neural Networks（TensorFlow GNN）库，这个库使得用户在使用 TensorFlow 时能够轻松处理图结构数据。

此前，TensorFlow GNN 的早期版本已经在谷歌的各种应用中使用，包括垃圾邮件和异常检测、流量估计、YouTube 内容标记等。特别是，考虑到谷歌数据种类繁多，该库在设计时就考虑到了异构图。

链接：https://mp.weixin.qq.com/s/Bfejz4eY0c2iP3EpUaUR-Q

3、无需大规模预训练，清华提出高效NLP学习框架TLM：从零开始比肩预训练语言模型性能

近期，来自清华大学的研究者们提出了一种简单高效的 NLP 学习框架。不同于当下 NLP 社区主流的大规模预训练 + 下游任务微调（pretraining-finetuning）的范式，这一框架无需进行大规模预训练。相较于传统的预训练语言模型，该框架将训练效率 (Training FLOPs) 提升了两个数量级，并且在多个 NLP 任务上实现了比肩甚至超出预训练模型的性能。这一研究结果对大规模预训练语言模型的必要性提出了质疑：大规模预训练对下游任务的贡献究竟有多大？我们真的需要大规模预训练来达到最好的效果吗？

链接：https://mp.weixin.qq.com/s/OWvSTg8aELZ0ezp3MJP5rA

4、深度学习编译器综述

AI模型结构的快速演化，底层计算硬件的层出不穷，用户使用习惯的推陈出新。单纯基于手工优化来解决AI模型的性能和效率问题越来越容易出现瓶颈，因此，为解决依赖库和工具的缺点，减轻手动优化每个硬件运行模型的负担。通过编译器试图去解决框架的灵活性和性能之间的矛盾。

链接：https://zhuanlan.zhihu.com/p/382015459

5、编译器领域的多面体模型（Polyhderal Model）

面体模型最关注的（可能也是唯一关注的）就是循环的优化。因此对于多面体模型，它只会把一段段程序当成一堆嵌套循环，至于循环里面的内容它是不大关心的。

链接：https://zhuanlan.zhihu.com/p/310142893

6、【从零开始学深度学习编译器15】：MLIR Toy Tutorials学习笔记之Lowering到LLVM IR

上一节中，我们将Toy Dialect的部分Operation Lowering到Affine Dialect，MemRef Dialect和Standard Dialect，而toy.print操作保持不变，所以又被叫作部分Lowering。通过这个Lowering可以将Toy Dialect的Operation更底层的实现逻辑表达出来，以寻求更多的优化机会，得到更好的MLIR表达式。这一节，我们将在上一节得到的混合型MLIR表达式完全Lowering到LLVM Dialect上，然后生成LLVM IR，并且我们可以使用MLIR的JIT编译引擎来运行最终的MLIR表达式并输出计算结果。

链接：https://zhuanlan.zhihu.com/p/434561499

7、从cuda函数库cub看如何高效实现数组加法

近期，我们测试了了engine中关于数组求和和zdb中关于数组求和的速度，结果我们发现zdb中关于数组求和的速度快了10%左右，那么cub是如何更高效的利用cuda实现数组求和的呢？我们又可以从中获得什么启发呢？

链接：https://zhuanlan.zhihu.com/p/96774455

8、OneFlow中的错误处理：Maybe

开源分布式深度学习框架OneFlow汲取了函数式编程语言 Haskell 中的思想，构建了 Maybe<T> 这种 ADT，并围绕它构建了一系列的基础设施，借助这套基础设置，开发者可以不花费额外精力于错误处理，就写出高质量、高容错的代码。OneFlow 还基于 LLVM 构建了静态分析工具，用于确保开发者按照约定正确使用 OneFlow Maybe<T>。

链接：https://mp.weixin.qq.com/s/GKKAzZHYWH92ckBGbQabKQ

9、最理想的点到点通信库究竟是怎样的？

从底层传输机制、上层应用需求以及已有点到点通信库的经验中可以提炼出这三点：编程简单，易于满足各种上层应用，包括封装成RPC使用，在OneFlow这样的深度学习框架中使用，甚至被用在HPC和深度学习中常见的集群通信原语中（all-reduce, broadcast等）；高性能：表现为零拷贝、低延时、高吞吐；底层支持TCP/IP套接字和RDMA传输。

为了满足这些需求，这个通信库在技术上要实现这四点：面向消息的编程模型；非阻塞的接口；零拷贝；对小消息和大消息都友好。

链接：https://mp.weixin.qq.com/s/ZaKrXkyvlX7g3RHLbVwOmQ

10、讨论：为什么说大模型训练很难？

自从Bert网络模型产数量超过3亿规模，当时候只是觉得性能好，没想到GPT系列出来后，GPT-3直接用170B规模的参数量模型精度碾压竞品。接着就是新一轮的竞争了，后面的事情就有点可怕了，Google推出万亿稀疏switch transformer，huawei推出2000亿稠密鹏程盘古大模型，微软推出Turing-NLG有1000亿参数，英伟达推出MegatronLM系列。大模型训练除了集群调度麻烦，还难在哪里？

链接：https://www.zhihu.com/question/498271491/answer/2221939093

11、11月26-27日，A2M互联网架构与机器学习创新峰会

7大专场，98个案例，大咖云集，全日程已上线！

链接：http://www.41huiyi.com/event-1014730631.html

内容中包含的图片若涉及版权问题，请及时与我们联系删除

AI系统内容推荐第16期：深度学习编译器综述；为什么说大模型训练很难；最理想的点到点通信库究竟是怎样的

评论