1、没有这个传奇工程师,就没有今天的Windows
1988年,在盖茨的招募下,他来到微软,历时5年花费1.5亿美元,领导200多位工程师开发出有430万行代码的Windows NT。其技术革命性严重冲击了Novell的Netware和UNIX操作系统的地位,为微软带来不可估量的商业价值,影响着超过20亿人的计算体验。也因此,他成为迄今为止唯一一位享有微软Senior Technical Fellow头衔的工程师,待遇比肩集团VP。微软前CEO鲍尔默更是直言,没有他,就没有今天的微软。
链接:https://mp.weixin.qq.com/s/ST5tiHr9bYIYZa0aAoG8mg
2、高级API、异构图:谷歌发布TF-GNN,在TensorFlow中创建图神经网络
TensorFlow 官方博客发布了 TensorFlow Graph Neural Networks(TensorFlow GNN)库 ,这个库使得用户在使用 TensorFlow 时能够轻松处理图结构数据。
此前,TensorFlow GNN 的早期版本已经在谷歌的各种应用中使用,包括垃圾邮件和异常检测、流量估计、YouTube 内容标记等。特别是,考虑到谷歌数据种类繁多,该库在设计时就考虑到了异构图。
链接:https://mp.weixin.qq.com/s/Bfejz4eY0c2iP3EpUaUR-Q
3、无需大规模预训练,清华提出高效NLP学习框架TLM:从零开始比肩预训练语言模型性能
近期,来自清华大学的研究者们提出了一种简单高效的 NLP 学习框架。不同于当下 NLP 社区主流的大规模预训练 + 下游任务微调(pretraining-finetuning)的范式,这一框架无需进行大规模预训练。相较于传统的预训练语言模型,该框架将训练效率 (Training FLOPs) 提升了两个数量级,并且在多个 NLP 任务上实现了比肩甚至超出预训练模型的性能。这一研究结果对大规模预训练语言模型的必要性提出了质疑:大规模预训练对下游任务的贡献究竟有多大?我们真的需要大规模预训练来达到最好的效果吗?
链接:https://mp.weixin.qq.com/s/OWvSTg8aELZ0ezp3MJP5rA
4、深度学习编译器综述
AI模型结构的快速演化,底层计算硬件的层出不穷,用户使用习惯的推陈出新。单纯基于手工优化来解决AI模型的性能和效率问题越来越容易出现瓶颈,因此,为解决依赖库和工具的缺点,减轻手动优化每个硬件运行模型的负担。通过编译器试图去解决框架的灵活性和性能之间的矛盾。
链接:https://zhuanlan.zhihu.com/p/382015459
5、编译器领域的多面体模型(Polyhderal Model)
面体模型最关注的(可能也是唯一关注的)就是循环的优化。因此对于多面体模型,它只会把一段段程序当成一堆嵌套循环,至于循环里面的内容它是不大关心的。
链接:https://zhuanlan.zhihu.com/p/310142893
6、【从零开始学深度学习编译器15】:MLIR Toy Tutorials学习笔记之Lowering到LLVM IR
上一节中,我们将Toy Dialect的部分Operation Lowering到Affine Dialect,MemRef Dialect和Standard Dialect,而toy.print操作保持不变,所以又被叫作部分Lowering。通过这个Lowering可以将Toy Dialect的Operation更底层的实现逻辑表达出来,以寻求更多的优化机会,得到更好的MLIR表达式。这一节,我们将在上一节得到的混合型MLIR表达式完全Lowering到LLVM Dialect上,然后生成LLVM IR,并且我们可以使用MLIR的JIT编译引擎来运行最终的MLIR表达式并输出计算结果。
链接:https://zhuanlan.zhihu.com/p/434561499
7、从cuda函数库cub看如何高效实现数组加法
近期,我们测试了了engine中关于数组求和和zdb中关于数组求和的速度,结果我们发现zdb中关于数组求和的速度快了10%左右,那么cub是如何更高效的利用cuda实现数组求和的呢?我们又可以从中获得什么启发呢?
链接:https://zhuanlan.zhihu.com/p/96774455
8、OneFlow中的错误处理:Maybe
开源分布式深度学习框架OneFlow汲取了函数式编程语言 Haskell 中的思想,构建了 Maybe<T> 这种 ADT,并围绕它构建了一系列的基础设施,借助这套基础设置,开发者可以不花费额外精力于错误处理,就写出高质量、高容错的代码。OneFlow 还基于 LLVM 构建了静态分析工具,用于确保开发者按照约定正确使用 OneFlow Maybe<T>。
链接:https://mp.weixin.qq.com/s/GKKAzZHYWH92ckBGbQabKQ
9、最理想的点到点通信库究竟是怎样的?
从底层传输机制、上层应用需求以及已有点到点通信库的经验中可以提炼出这三点:编程简单,易于满足各种上层应用,包括封装成RPC使用,在OneFlow这样的深度学习框架中使用,甚至被用在HPC和深度学习中常见的集群通信原语中(all-reduce, broadcast等);高性能:表现为零拷贝、低延时、高吞吐;底层支持TCP/IP套接字和RDMA传输。
为了满足这些需求,这个通信库在技术上要实现这四点:面向消息的编程模型;非阻塞的接口;零拷贝;对小消息和大消息都友好。
链接:https://mp.weixin.qq.com/s/ZaKrXkyvlX7g3RHLbVwOmQ
10、讨论:为什么说大模型训练很难?
自从Bert网络模型产数量超过3亿规模,当时候只是觉得性能好,没想到GPT系列出来后,GPT-3直接用170B规模的参数量模型精度碾压竞品。接着就是新一轮的竞争了,后面的事情就有点可怕了,Google推出万亿稀疏switch transformer,huawei推出2000亿稠密鹏程盘古大模型,微软推出Turing-NLG有1000亿参数,英伟达推出MegatronLM系列。大模型训练除了集群调度麻烦,还难在哪里?
链接:https://www.zhihu.com/question/498271491/answer/2221939093
11、11月26-27日,A2M互联网架构与机器学习创新峰会
7大专场,98个案例,大咖云集,全日程已上线!
链接:http://www.41huiyi.com/event-1014730631.html

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢