AI系统内容推荐第15期

一、框架

1、TensorFlow 2.7正式版上线，改进TF/Keras调试，支持Jax模型到TensorFlow Lite转换

TensorFlow2.7 正式发布，新版本包括对 tf.keras、tf.lite 等模块的改进；tf.data 现在可以支持自动分片（auto-sharding）；添加实验性 API Experiment_from_jax 以支持从 Jax 模型到 TensorFlow Lite 的转换。

链接：https://mp.weixin.qq.com/s/cnHMVB0S6pyIaA9lks40ow

2、巨型AI模型背后的分布式训练技术

这篇文章总结了过去几年支撑模型规模上涨的关键分布式训练技术。总体来说，核心解决的问题是如何在保障GPU能够高效计算的同时，降低显存的开销。

链接：https://zhuanlan.zhihu.com/p/430383324

3、关于AI Architecture未来的一些思考

文章引起了AI圈内很多人士的关注，特别是对AI平台架构有兴趣的对此做了非常丰富的解读。

MindSpore项目组内部也进行了讨论，总结了一些观点供大家思考（这些观点主要来自岳大师）。

链接：https://zhuanlan.zhihu.com/p/428802599

4、PNNX: PyTorch Neural Network Exchange

这是 PyTorch 模型部署的新的方式，可以避开 ONNX 中间商，导出比较干净的高层 OP

PNNX 的名字和写法也是沿袭了 ONNX，然后 P 是 O 的后面一个字母，代表着 PNNX 希望能比 ONNX 做的更好。

链接：https://zhuanlan.zhihu.com/p/427620428

二、芯片

1、Quiver：让你的多卡GNN训练更快

Quiver不仅能提升单卡训练的性能，同时能极大的提升训练的多卡扩展性，甚至在有NVLink的机器上实现超线性加速比，而这一切需要的代价仅仅是数十行源码的修改即可（尤其当你是一个PyG用户）。

链接：https://zhuanlan.zhihu.com/p/427882059

2、DPU技术发展概况

DPU的出现是异构计算的一个阶段性标志。与GPU的发展类似，DPU是应用驱动的体系结构设计的又一典型案例；但与GPU不同的是，DPU面向的应用更加底层。DPU要解决的核心问题是基础设施的“降本增效”，即将“CPU处理效率低下、GPU处理不了”的负载卸载到专用DPU，提升整个计算系统的效率、降低整体系统的总体拥有成本（TCO）。DPU的出现也许是体系结构朝着专用化路线发展的又一个里程碑。

链接：https://mp.weixin.qq.com/s/6FoBgiUoiwZJCGcozXGHVg

3、DPU新范式: 网络大坝和可编程存内计算

这项工作主要是由思科中国研发中心两位同事Kevin Fang和David Peng一起完成，文章中我们比对了主机内各种通信总线(PCIE/CXL/CHI/AXI)和主机之间的通信协议(以太网、RDMA),得出结论需要在网络侧直接添加内存，并提供可编程的指令集实现SIMD访问和计算加速，这种做法对硬件和软件都非常友好，测试结果显示NetDAM网卡平均读延迟仅 618ns ，抖动 39ns ，远低于当前的RDMA实现。在分布式AI训练场景中，MPI-Allreduce任务也比HPC-X快数倍。

链接：https://mp.weixin.qq.com/s/Bp87rQR1_KX_NDNS8OsMyw

三、实践

1、对齐PyTorch，一文详解OneFlow的DataLoader实现

最重要的新特性之一，就是OneFlow的动态图做到了几乎和PyTorch一致，从Tensor、nn.Module、到autograd、functional api等，其中也包括和torch几乎对齐的DataLoader/Dataset设计，笔者有幸开发了OneFlow中的这一模块。本文将对OneFlow/PyTorch中的DataLoader原理、工作流程进行梳理。

链接：https://mp.weixin.qq.com/s/ztuQPj8Oye_HaQJ-lbJGkQ

2、Tensorflow 编译加速器 XLA 源码深入解读

XLA是Tensorflow内置的用于加速的编译器，但在实践中，对于不了解其机制的同学来说，往往得不到正收益，甚至经常得到负收益。而本文的目的则是通过讲解XLA内部代码实现来解明其机制。

链接：https://zhuanlan.zhihu.com/p/427444916

3、【从零开始学深度学习编译器】十三，如何在MLIR里面写Pass？

这里主要讲解了如何在MLIR中自定义Pass，这里主要以消除连续的Transpose操作和Reshape操作，内联优化Pass，形状推导Pass 4个例子来介绍了在MLIR中定义Pass的各种技巧，实际上也并不难理解。但要入门MLIR掌握这些Pass实现的技巧是有必要的。

链接：https://zhuanlan.zhihu.com/p/428713676

四、活动

AI超新星！IDEA大会官宣，将在11月22-23日举行

本次IDEA大会将覆盖许多备受关注的前沿话题：科技金融、元宇宙、NLP大模型、AI +医疗、计算机视觉与智能制造、AI商业知识图谱、A制药、隐私安全计算……我们试图探讨，学术与产业AI怎么融合？AI产业如何落地？数字经济中资本市场又有哪些新机会？

链接：https://mp.weixin.qq.com/s/RFGnsf03s8zEpa4eUpMDCA

10月30日（第十四期）

【AI系统内容推荐第14期】各位好，很高兴与大家分享、推荐AI系统方面的相关内容，欢迎各位对相关内容讨论、交流。如果你有兴趣参与AI系统领域内容的编辑工作，请联系我；如果你对我们的工作有任何建议，欢迎随时反馈交流；如果你想查看往期内容，可直接点击：https://hub.baai.ac.cn/users/activities/13905

内容中包含的图片若涉及版权问题，请及时与我们联系删除

AI系统内容推荐第15期

评论