AI系统前沿动态第44期：为什么神经网络这么有效；分布式深度学习编程新范式；OSDI 2022论文评述

1、18张图，直观理解神经网络、流形和拓扑

迄今，人们对神经网络的一大疑虑是，它是难以解释的黑盒。本文则主要从理论上理解为什么神经网络对模式识别、分类效果这么好，其本质是通过一层层仿射变换和非线性变换把原始输入做扭曲和变形，直至可以非常容易被区分不同的类别。实际上，反向传播算法（BP) 其实就是根据训练数据不断地微调这个扭曲的效果。本文用多张动图非常形象地解释了神经网络的工作原理。

18张图，直观理解神经网络、流形和拓扑

2、世间几乎所有已知蛋白质结构，都被DeepMind开源了

一年前，DeepMind 发布了 AlphaFold2，以原子水平的准确度预测了 2/3 的蛋白质结构，并与 EMBL-EBI 共同发布了开放可搜索的蛋白质结构数据库 AlphaFold DB，与世界共同分享这一技术。7 月 28 日，DeepMind 宣布 AlphaFold DB 已从 100 万个结构扩展到超过 2 亿个结构，扩大超过 200 倍，这一进展将极大地提升人们对于生物学的理解。

世间几乎所有已知蛋白质结构，都被DeepMind开源了

3、一种分布式深度学习编程新范式：Global Tensor

全局视角（Global View）编程提供了单程序单数据（SPSD）的编程视角。与 SPMD 编程不同的是，Global View的数据是同一个逻辑数据，从编程接口层面看是单一数据，其实更简洁自然。使用 Global Tensor，用户就可以采用比较自然的 Global View 视角，把多机多设备看作一个设备来编程，实现 SPSD 编程。

一种分布式深度学习编程新范式：Global Tensor

4、OSDI 2022 Roller 论文解读

无论是Ansor，AutoTVM还是PET（一部分代码生成也是基于TVM AutoTVM/Ansor的）它们都面临了同样一个问题，那就是在对算子的Schedule进行搜索时需要耗费大量的时间，在特定硬件上对一个常见的视觉模型进行自动调优和生成代码kennel需要数小时。这严重阻碍了AI编译器应用于模型部署。基于这个痛点，Roller横空出世。

BBuf：OSDI 2022 Roller 论文解读

5、OSDI 2022 阅读评述连载（三）

OSDI 2022 阅读评述连载（三）

6、onnxsim 和 onnx optimizer 大更新！

不管是静态输入还是动态输入，也不管有没有自定义 OP，在使用新版 onnxsim 时都只需要 onnxsim input.onnx output.onnx 一把梭。此外，新版 onnxsim 是用 C++ 而不是 Python 写的，这使它可以编译为 WebAssembly 并发布到一键转换 Caffe, ONNX, TensorFlow 到 NCNN, MNN, Tengine —— 一个包含了各种 WebAssembly 格式的模型转换工具、提供开箱即用的模型转换功能的网站。

大缺弦：onnxsim 和 onnx optimizer 大更新！

7、PyTorch 1.12的一些升级

除了PyTorch 1.12版本之外，当前的PyTorch库进行了一些改进。这些更新表明PyTorch专注于开发跨所有领域的通用和可扩展API，使得更容易在PyTorch上构建生态系统项目。

New library updates in PyTorch 1.12

8、OneFlow源码解析：Op、Kernel与解释器

继续追踪执行流程会发现，ReluFunctor在构造UserOpExpr时会用到UserOpRegistryMgr管理的Op与Kernel。Op表示算子的描述信息，Kernel在不同设备上实现计算。

OneFlow源码解析：Op、Kernel与解释器

9、五谈AI软件栈：无责乱弹AI软件栈研发方法论

一套AI软件栈，最重要的是解决哪些问题？我认为是三个：硬件算子库的开发；AI框架的对接策略；端到端快速集成链路的搭建。

杨军：五谈AI软件栈--无责乱弹AI软件栈研发方法论

10、MLOps的概念、定义和架构

所有工业机器学习(ML)项目的最终目标是开发机器学习产品并将其快速投入生产。然而，自动化和操作机器学习产品是极具挑战性的，机器学习操作(MLOps)范式解决了这个问题，它包括最佳实践、概念集和开发文化等。