一、框架

 

1、TensorFlow 2.7正式版上线,改进TF/Keras调试,支持Jax模型到TensorFlow Lite转换

 

TensorFlow2.7 正式发布,新版本包括对 tf.keras、tf.lite 等模块的改进;tf.data 现在可以支持自动分片(auto-sharding);添加实验性 API Experiment_from_jax 以支持从 Jax 模型到 TensorFlow Lite 的转换。

 

链接:https://mp.weixin.qq.com/s/cnHMVB0S6pyIaA9lks40ow

 

2、巨型AI模型背后的分布式训练技术

这篇文章总结了过去几年支撑模型规模上涨的关键分布式训练技术。总体来说,核心解决的问题是如何在保障GPU能够高效计算的同时,降低显存的开销。

链接:https://zhuanlan.zhihu.com/p/430383324

 

3、关于AI Architecture未来的一些思考

 

文章引起了AI圈内很多人士的关注,特别是对AI平台架构有兴趣的对此做了非常丰富的解读。

MindSpore项目组内部也进行了讨论,总结了一些观点供大家思考(这些观点主要来自岳大师)。

 

链接:https://zhuanlan.zhihu.com/p/428802599

 

4、PNNX: PyTorch Neural Network Exchange

 

这是 PyTorch 模型部署的新的方式,可以避开 ONNX 中间商,导出比较干净的高层 OP

PNNX 的名字和写法也是沿袭了 ONNX,然后 P 是 O 的后面一个字母,代表着 PNNX 希望能比 ONNX 做的更好。

 

链接:https://zhuanlan.zhihu.com/p/427620428

 

二、芯片

 

1、Quiver:让你的多卡GNN训练更快

 

Quiver不仅能提升单卡训练的性能,同时能极大的提升训练的多卡扩展性,甚至在有NVLink的机器上实现超线性加速比,而这一切需要的代价仅仅是数十行源码的修改即可(尤其当你是一个PyG用户)。

 

链接:https://zhuanlan.zhihu.com/p/427882059

 

2、DPU技术发展概况

 

DPU的出 现是异构计算的一个阶段性标志。与GPU的发展类似,DPU是应用驱动的体系 结构设计的又一典型案例;但与GPU不同的是,DPU面向的应用更加底层。DPU要解决的核心问题是基础设施的“降本增效”,即将“CPU处理效率低 下、GPU处理不了”的负载卸载到专用DPU,提升整个计算系统的效率、降低 整体系统的总体拥有成本(TCO)。DPU的出现也许是体系结构朝着专用化路 线发展的又一个里程碑。

 

链接:https://mp.weixin.qq.com/s/6FoBgiUoiwZJCGcozXGHVg

 

3、DPU新范式: 网络大坝和可编程存内计算

 

这项工作主要是由思科中国研发中心两位同事Kevin Fang和David Peng一起完成,文章中我们比对了主机内各种通信总线(PCIE/CXL/CHI/AXI)和主机之间的通信协议(以太网、RDMA),得出结论需要在网络侧直接添加内存,并提供可编程的指令集实现SIMD访问和计算加速,这种做法对硬件和软件都非常友好,测试结果显示NetDAM网卡平均读延迟仅 618ns ,抖动 39ns ,远低于当前的RDMA实现。 在分布式AI训练场景中,MPI-Allreduce任务也比HPC-X快数倍。

 

链接:https://mp.weixin.qq.com/s/Bp87rQR1_KX_NDNS8OsMyw

 

三、实践

 

1、对齐PyTorch,一文详解OneFlow的DataLoader实现

 

最重要的新特性之一,就是OneFlow的动态图做到了几乎和PyTorch一致,从Tensor、nn.Module、到autograd、functional api等,其中也包括和torch几乎对齐的DataLoader/Dataset设计,笔者有幸开发了OneFlow中的这一模块。本文将对OneFlow/PyTorch中的DataLoader原理、工作流程进行梳理。

链接:https://mp.weixin.qq.com/s/ztuQPj8Oye_HaQJ-lbJGkQ

 

2、Tensorflow 编译加速器 XLA 源码深入解读

 

XLA是Tensorflow内置的用于加速的编译器,但在实践中,对于不了解其机制的同学来说,往往得不到正收益,甚至经常得到负收益。而本文的目的则是通过讲解XLA内部代码实现来解明其机制。

 

链接:https://zhuanlan.zhihu.com/p/427444916

 

3、【从零开始学深度学习编译器】十三,如何在MLIR里面写Pass?

 

这里主要讲解了如何在MLIR中自定义Pass,这里主要以消除连续的Transpose操作和Reshape操作,内联优化Pass,形状推导Pass 4个例子来介绍了在MLIR中定义Pass的各种技巧,实际上也并不难理解。但要入门MLIR掌握这些Pass实现的技巧是有必要的。

 

链接:https://zhuanlan.zhihu.com/p/428713676

 

四、活动

 

AI超新星!IDEA大会官宣,将在11月22-23日举行

 

本次IDEA大会将覆盖许多备受关注的前沿话题:科技金融、元宇宙、NLP大模型、AI +医疗、计算机视觉与智能制造、AI商业知识图谱、A制药、隐私安全计算……我们试图探讨,学术与产业AI怎么融合?AI产业如何落地?数字经济中资本市场又有哪些新机会?

 

链接:https://mp.weixin.qq.com/s/RFGnsf03s8zEpa4eUpMDCA

 

10月30日(第十四期)

【AI系统内容推荐第14期】各位好,很高兴与大家分享、推荐AI系统方面的相关内容,欢迎各位对相关内容讨论、交流。如果你有兴趣参与AI系统领域内容的编辑工作,请联系我;如果你对我们的工作有任何建议,欢迎随时反馈交流;如果你想查看往期内容,可直接点击:https://hub.baai.ac.cn/users/activities/13905

内容中包含的图片若涉及版权问题,请及时与我们联系删除