一、框架
1、TensorFlow 2.7正式版上线,改进TF/Keras调试,支持Jax模型到TensorFlow Lite转换
TensorFlow2.7 正式发布,新版本包括对 tf.keras、tf.lite 等模块的改进;tf.data 现在可以支持自动分片(auto-sharding);添加实验性 API Experiment_from_jax 以支持从 Jax 模型到 TensorFlow Lite 的转换。
链接:https://mp.weixin.qq.com/s/cnHMVB0S6pyIaA9lks40ow
2、巨型AI模型背后的分布式训练技术
这篇文章总结了过去几年支撑模型规模上涨的关键分布式训练技术。总体来说,核心解决的问题是如何在保障GPU能够高效计算的同时,降低显存的开销。
链接:https://zhuanlan.zhihu.com/p/430383324
3、关于AI Architecture未来的一些思考
文章引起了AI圈内很多人士的关注,特别是对AI平台架构有兴趣的对此做了非常丰富的解读。
MindSpore项目组内部也进行了讨论,总结了一些观点供大家思考(这些观点主要来自岳大师)。
链接:https://zhuanlan.zhihu.com/p/428802599
4、PNNX: PyTorch Neural Network Exchange
这是 PyTorch 模型部署的新的方式,可以避开 ONNX 中间商,导出比较干净的高层 OP
PNNX 的名字和写法也是沿袭了 ONNX,然后 P 是 O 的后面一个字母,代表着 PNNX 希望能比 ONNX 做的更好。
链接:https://zhuanlan.zhihu.com/p/427620428
二、芯片
1、Quiver:让你的多卡GNN训练更快
Quiver不仅能提升单卡训练的性能,同时能极大的提升训练的多卡扩展性,甚至在有NVLink的机器上实现超线性加速比,而这一切需要的代价仅仅是数十行源码的修改即可(尤其当你是一个PyG用户)。
链接:https://zhuanlan.zhihu.com/p/427882059
2、DPU技术发展概况
DPU的出 现是异构计算的一个阶段性标志。与GPU的发展类似,DPU是应用驱动的体系 结构设计的又一典型案例;但与GPU不同的是,DPU面向的应用更加底层。DPU要解决的核心问题是基础设施的“降本增效”,即将“CPU处理效率低 下、GPU处理不了”的负载卸载到专用DPU,提升整个计算系统的效率、降低 整体系统的总体拥有成本(TCO)。DPU的出现也许是体系结构朝着专用化路 线发展的又一个里程碑。
链接:https://mp.weixin.qq.com/s/6FoBgiUoiwZJCGcozXGHVg
3、DPU新范式: 网络大坝和可编程存内计算
这项工作主要是由思科中国研发中心两位同事Kevin Fang和David Peng一起完成,文章中我们比对了主机内各种通信总线(PCIE/CXL/CHI/AXI)和主机之间的通信协议(以太网、RDMA),得出结论需要在网络侧直接添加内存,并提供可编程的指令集实现SIMD访问和计算加速,这种做法对硬件和软件都非常友好,测试结果显示NetDAM网卡平均读延迟仅 618ns ,抖动 39ns ,远低于当前的RDMA实现。 在分布式AI训练场景中,MPI-Allreduce任务也比HPC-X快数倍。
链接:https://mp.weixin.qq.com/s/Bp87rQR1_KX_NDNS8OsMyw
三、实践
1、对齐PyTorch,一文详解OneFlow的DataLoader实现
最重要的新特性之一,就是OneFlow的动态图做到了几乎和PyTorch一致,从Tensor、nn.Module、到autograd、functional api等,其中也包括和torch几乎对齐的DataLoader/Dataset设计,笔者有幸开发了OneFlow中的这一模块。本文将对OneFlow/PyTorch中的DataLoader原理、工作流程进行梳理。
链接:https://mp.weixin.qq.com/s/ztuQPj8Oye_HaQJ-lbJGkQ
2、Tensorflow 编译加速器 XLA 源码深入解读
XLA是Tensorflow内置的用于加速的编译器,但在实践中,对于不了解其机制的同学来说,往往得不到正收益,甚至经常得到负收益。而本文的目的则是通过讲解XLA内部代码实现来解明其机制。
链接:https://zhuanlan.zhihu.com/p/427444916
3、【从零开始学深度学习编译器】十三,如何在MLIR里面写Pass?
这里主要讲解了如何在MLIR中自定义Pass,这里主要以消除连续的Transpose操作和Reshape操作,内联优化Pass,形状推导Pass 4个例子来介绍了在MLIR中定义Pass的各种技巧,实际上也并不难理解。但要入门MLIR掌握这些Pass实现的技巧是有必要的。
链接:https://zhuanlan.zhihu.com/p/428713676
四、活动
AI超新星!IDEA大会官宣,将在11月22-23日举行
本次IDEA大会将覆盖许多备受关注的前沿话题:科技金融、元宇宙、NLP大模型、AI +医疗、计算机视觉与智能制造、AI商业知识图谱、A制药、隐私安全计算……我们试图探讨,学术与产业AI怎么融合?AI产业如何落地?数字经济中资本市场又有哪些新机会?
链接:https://mp.weixin.qq.com/s/RFGnsf03s8zEpa4eUpMDCA
10月30日(第十四期)
【AI系统内容推荐第14期】各位好,很高兴与大家分享、推荐AI系统方面的相关内容,欢迎各位对相关内容讨论、交流。如果你有兴趣参与AI系统领域内容的编辑工作,请联系我;如果你对我们的工作有任何建议,欢迎随时反馈交流;如果你想查看往期内容,可直接点击:https://hub.baai.ac.cn/users/activities/13905

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢