1、深度学习崛起十年:“开挂”的OpenAI革新者

转眼间2012 ImageNet大爆发已经10年了,Ilya Sutskever作为AlexNet 作者之一,还参与了AlphaGo, GPT, CLIP, DALL-E, Codex 这些称得上“石破天惊”的技术进展,这一系列杰作都和一个人有关系,这背后有没有必然性?Ilya前段时间和Yann LeCun辩论大模型有没有意识,甚至让人感觉这莫不是一位“神棍”? 看完这篇文章一切都清楚了,这的确是一位“未卜先知”的科学家,没有他那些天马行空的疯狂想法,前述的科研突破可能都不会出现。

链接:mp.weixin.qq.com/s/Q1G0

2、TVM:成为深度学习领域的“Linux”

作为使机器学习在各种硬件系统上高效运行的专家,Luis的研究重点是计算机系统结构、编程语言、机器学习、分子生物学的交叉领域,在Lukas Biewald主持的机器学习节目Gradient Dissent上,他介绍了TVM编译器的发展路径、系统优化性能技术细节和模型部署的挑战,并分享了OctoML的创业思路。

链接:mp.weixin.qq.com/s/5OL6

3、英伟达连甩20枚AI核弹!800亿晶体管GPU、144核CPU来了

延续以往风格,黄仁勋在主题演讲中继续秒天秒地秒空气,公布多个“全球首款”。这次他带来一系列堪称“地表最强”的AI重磅新品,随便一个精度的AI性能,都比上一代A100高出3~6倍。虽然英伟达并购Arm的计划刚刚告吹,但它的数据中心“三芯”总路线(GPU+DPU+CPU)依然不动摇——继去年推出其首款数据中心CPU后,今天,英伟达又亮出一款基于Arm架构的Grace CPU超级芯片。

链接:mp.weixin.qq.com/s/KtbJ

4、性能最高提升 6.9 倍,字节跳动开源大模型训练框架 veGiantModel

字节跳动 AML 团队内部开发了火山引擎大模型训练框架 veGiantModel,比 Megatron 和 DeepSpeed 更快。

链接:mp.weixin.qq.com/s/N6jZ

5、阿里巴巴云原生大数据运维平台 SREWorks 正式开源

SREWorks 作为阿里云大数据SRE团队对SRE理念的工程实践,专注于以应用为中心的一站式“云原生”、“数智化”运维 SaaS 管理套件,提供企业应用&资源管理及运维开发两大核心能力,帮助企业实现云原生应用&资源的交付运维。

链接:mp.weixin.qq.com/s/xLHR

6、腾讯联合英伟达开源TensorRT插件自动生成工具TPAT

2022 年 3 月 25 日,腾讯联合英伟达开发的 TensorRT 插件自动生成工具 TPAT 正式宣布开源。TensorRT 是当前应用最广的 GPU 推理框架,但由于支持的算子数量有限,用户面临手写插件以支持算子的痛点。TPAT 能够支持开放神经网络交换 (ONNX) 格式所有的算子,端到端生成 TensorRT 插件,在解放人力成本的同时,性能对比手写毫不逊色。

链接:https://mp.weixin.qq.com/s/9MIgF2f1_-VCs3_fahW1Pw

7、阿里开源支持10万亿模型的自研分布式训练框架EPL

EPL通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位优化来提供易用、高效的分布式训练框架。

zhuanlan.zhihu.com/p/47

8、分布式训练硬核技术——通讯原语

在深度学习框架中,分布式训练的通讯原语和通讯实现方式对AI框架分布式训练起着非常重要的作用,如果想要训练大模型(Foundation Model)肯定离不开进行通讯操作。

链接:https://zhuanlan.zhihu.com/p/465967735

 

9、TensorFlow在美团外卖推荐场景的GPU训练优化实践

美团机器学习平台基于内部深度定制的TensorFlow研发了Booster GPU训练架构。该架构在整体设计上充分考虑了算法、架构、新硬件的特性,从数据、计算、通信等多个角度进行了深度的优化,最终其性价比达到CPU任务的2~4倍。本文主要讲述Booster架构的设计实现、性能优化及业务落地工作

链接:mp.weixin.qq.com/s/rEHh

 

其他人都在看

OneFlow v0.7.0最新版本已发布,欢迎下载体验:​github.com/Oneflow-Inc/oneflow

内容中包含的图片若涉及版权问题,请及时与我们联系删除