1、一块GPU训练TB级推荐模型不是梦,OneEmbedding性能一骑绝尘

 

针对现代推荐系统的种种痛点,一流科技 OneFlow 团队推出了一款高性能、可扩展、灵活度高的推荐系统组件 OneEmbedding。它的使用方式和通用深度学习框架一样简单,性能却远超通用框架,甚至超过了 NVIDIA HugeCTR 这样为推荐场景定制开发的系统。

 

https://mp.weixin.qq.com/s/e849TWDD-dS8Q3G-zgy6NQ

 

2、Geoffrey Hinton:深度学习的下一个大事件

 

如今,Hinton认为,深度学习这种非常成功的范式将继续保持繁荣。不过,引领深度学习向前迈进的不再是反向传播,基于他对人类大脑工作机制的持续研究,他窥探到深度学习发展的下一个大事件:脉冲神经网络的学习算法。这一次,他的研究直觉还会在未来得到验证吗?

 

https://mp.weixin.qq.com/s/ryxvfA9hoc8TZuELLRezdA

 

3、AI-GPU显存优化领域前沿工作发展史

 

从开始对AI、对系统的一窍不通,通过积累,到现在的对部分系统领域有了一定的学术知识积累,这个过程也是跌跌撞撞,充满坎坷。作者对AI场景下关于GPU显存的优化工作进行整理,为这个领域写一份通俗化的“Survey”。

 

https://zhuanlan.zhihu.com/p/536940298

 

4、面向ASIC设备的编译器框架:TVM or MLIR?

 

在AI DSA芯片的开发实践中,棘手的问题除了底层硬件的设计,更多的还是AI模型在DSA芯片上优化、部署执行这一过程所需软件栈的实现,也即“AI编译器”技术栈,在这一领域最常常被大家提起并衡短论长的,莫过于TVM和MLIR。

 

https://zhuanlan.zhihu.com/p/513872467

 

5、深入理解TVM:Python/C++互调(上)

 

TVM已经是一个很庞大的系统,包含了很多的功能模块,其中python和c++的互相调用这个功能模块,没有使用第三方的开源库(boost.python、pybind11等),而是自己实现了一套复杂但精致高效强大的机制,值得好好研究学习。

 

https://zhuanlan.zhihu.com/p/363991566

 

6、浅谈GPU通信和PCIe P2P DMA

 

目前网络通信已经成为分布式机器学习的性能瓶颈。本文将讨论GPU通信和PCIe P2P DMA技术,为大规模分布式应用通信性能的优化提供参考。本文将依次回答如下三个问题,并探讨今后IO设备互连该走向什么方向。

 

https://zhuanlan.zhihu.com/p/430101220

 

7、Welford算法小记

 

前段时间debug LayerNorm的时候,看见Pytorch LayerNorm计算方差的方式与我们并不一样。它使用了一种在线更新算法,速度更快,数值稳定性更好。

 

https://zhuanlan.zhihu.com/p/408474710

 

8、Uni-Fold 升级开源!完成PyTorch迁移,支持复合物训练,训练加速2.2倍!

 

近日,深势科技升级并开源了Uni-Fold的最新代码与模型参数,完整支持蛋白质单体、复合物结构预测模型的推理与训练。开源代码迁移到PyTorch,成功复现了AlphaFold2、AlphaFold-Multimer模型的全尺寸从头训练,并在最新公开、去重的PDB结构数据上达到更优精度。通过多项效率优化,在同等硬件与相同模型配置下,Uni-Fold加速AlphaFold训练约2.2倍,超越OpenFold、FastFold等方案,是目前已知的最高效的实现。

 

https://mp.weixin.qq.com/s/_6uCCZxIm1t1PzKL6kj33g

 

9、由浅入深了解Diffusion Model

 

最近Diffusion Model火到爆炸(GLIDE[2],DALLE2[3],Imagen[4],和一系列Image Editing方法等等),所以又重新建起来学习了下。恐怕diffusion拥有成为下一代图像生成模型的代表的潜力(或者已经是了?)

 

https://zhuanlan.zhihu.com/p/525106459

 

 

10、OpenMLDB + OneFlow: 手把手教你快速链接特征工程到模型训练

 

如何从历史数据中找出规律,去预测用户未来的购买需求,让最合适的商品遇见最需要的人,是大数据应用在精准营销中的关键问题,也是所有电商平台在做智能化升级时所需要的核心技术。本案例使用 OpenMLDB 进行数据挖掘,使用 OneFlow 中的 DeepFM 模型进行高性能训练推理,提供精准的商品推荐。

 

https://mp.weixin.qq.com/s/dF7xExYaiWVi0BttQ0mFXg


其他人都在看

欢迎体验OneFlow v0.8.0:https://github.com/Oneflow-Inc/oneflow/