1、有了这个工具,不执行代码就可以找PyTorch模型错误

近日,来自韩国首尔大学的研究者们提出了另一种静态分析器 PyTea,它可以自动检测 PyTorch 项目中的张量形状错误。在对包括 PyTorch 存储库中的项目以及 StackOverflow 中存在的张量错误代码进行测试。结果表明,PyTea 可以成功的检测到这些代码中的张量形状错误,几秒钟就能完成。

链接:

https://mp.weixin.qq.com/s/Jd3pILMRm3e0sAj3PJ1WSQ

 

2、TensorFlow在推荐系统中的分布式训练优化实践

美团内部深度定制的TensorFlow版本,基于原生TensorFlow 1.x架构与接口,从大规模稀疏参数的支持、训练模式、分布式通信优化、流水线优化、算子优化融合等多维度进行了深度优化。在推荐系统场景中,分布式扩展性提升10倍以上,单位算力性能也有显著提升,并在美团内部业务中大量使用,本文介绍了相关的优化与实践工作。

 

链接: https://mp.weixin.qq.com/s/LjdHBEyQhJq3ptMj8XVT-w

 

3、高效、易用、可拓展一键全包:OneFlow CUDA Elementwise模板库的设计优化思路

 

逐元素操作(也叫 Elementwise 操作)是指对 Tensor 中的每个元素应用一个函数变换,得到最终输出结果。在深度学习里,有很多算子属于 Elementwise 算子范畴,比如常用的激活函数(如ReLU、GELU ),ScalarMultiply(对 Tensor 每个元素都乘上一个标量)等操作。为此,OneFlow 针对这种 Elementwise 操作抽象出一套 CUDA 模板,开发者只需把计算逻辑封装到一个结构体内,即可获得一个 CUDA Elementwise 算子。

 

链接:https://mp.weixin.qq.com/s/k6kgQ70cVDvaG7FKOZVJLg

 

4、让训练更长序列的模型成为可能 Sequence Parallelism

 

自注意力机制是Transformer中的一个关键部件,但其占用显存大小和序列长度呈平方关系,导致我们实际并不能用很长的序列(如BERT是固定为512)。在这篇工作里,我们提出了序列并行(Sequence Parallelism),将序列切分成一个个小块,放置在每一个计算设备上。计算注意力需要将Query和全局的Key交互,受启发于Ring-Allreduce算法,我们以类似的方式实现注意力计算,并称为Ring Self Attention。该并行方式能够与现有的数据并行,模型并行,流水线并行一起使用,实现4D并行。

 

链接:https://zhuanlan.zhihu.com/p/447289053

 

5、用OneFlow实现基于U型网络的ISBI细胞分割任务

 

对于熟悉 PyTorch 的用户(比如我),可以快速上手 OneFlow,非常丝滑。本文基于OneFlow和U-Net实现ISBI挑战赛的细胞分割,代码包括单机单卡和单机多卡两种训练方式。其中,单机多卡的训练是借助 oneflow.nn.parallel.DistributedDataParallel 模块及 launcher做的数据并行。此外,由于我目前在OneFlow做一名算法实习生,本文更多以一个初次接触OneFlow框架的用户角度进行分析,包括API、分布式训练能力、高性能和我的一些实习感受。

 

链接:https://mp.weixin.qq.com/s/PJj4gfut6IdBMoVfnvhTaA

 

6、DeepMpind 研发媲美千亿参数大模型的小模型RETO

 

能否用一个小模型超越GPT3和2800亿参数的Gopher?Deepmind 的这篇研究论文Improving language models by retrieving from trillions of tokens(通过从数万亿个标记中检索来改进语言模型),表明存在这这样的可能性。

 

链接:https://hub.baai.ac.cn/view/12939

 

 

7、缩小规模,OpenAI 文本生成图像新模型 GLIDE 用 35 亿参数媲美 DALL-E

 

从年初 OpenAI 刷屏社区的 DALL-E 到英伟达生成逼真摄影的 GauGAN2,文本生成图像可谓是今年大火的一个研究方向。现在 OpenAI 又有了新的进展——35 亿参数的新模型 GLIDE。除了从文本生成图像,GLIDE 还有图像编辑功能——使用文本 prompt 修改现有图像,在必要时插入新对象、阴影和反射。GLIDE 的零样本生成和修复复杂场景的能力也很强。GLIDE 还能够将草图转换为逼真的图像编辑。

 

论文:https://arxiv.org/pdf/2112.10741.pdf

 

 

8、视觉 Transformer BERT 预训练新方式:中科大、MSRA 等提出 PeCo,优于 MAE、BEiT

 

来自中国科学技术大学、微软亚研等机构的研究者提出了学习感知 codebook( perceptual codebook ,PeCo),用于视觉 transformer 的 BERT 预训练。目前,BEiT 成功地将 BERT 预训练从 NLP 领域迁移到了视觉领域。BEiT 模型直接采用简单的离散 VAE 作为视觉 tokenizer,但没有考虑视觉 token 语义层面。相比之下,NLP 领域中的离散 token 是高度语义化的。这种差异促使研究者开始学习感知 codebook,他们发现了一个简单而有效的方法,即在 dVAE 训练期间强制执行感知相似性。

 

链接:https://mp.weixin.qq.com/s/Kk09Dlhq1hnUV9-z5AuWLw

 

 

9、MIT、UCLA、斯坦福联合提出新一代视觉推理数据集

 

本文引入了一个新的名为 PTR 的大规模诊断型视觉推理数据集。PTR 包含大约七万 RGBD 合成图像,带有关于语义实例分割、颜色属性、空间和几何关系以及某些物理属性(例如稳定性)的物体和局部标注。这些图像配有五种类型的问题:概念型推理,关系型推理,类比型推理,数学推理和物理推理。这些类型均来自于人类认知推理的重要方面,但在以往的工作中并没有被充分探索过。本文在这个数据集上检验了几个最先进的视觉推理模型。研究者观察到它们的表现远远不及人类表现,特别是在一些较新的推理类型(例如几何,物理问题)任务上。该研究期待这个数据集能够促进机器推理向更复杂的人类认知推理推进。

 

论文:http://ptr.csail.mit.edu/assets/ptr.pdf

 

10、最大数据集、多任务覆盖,阿里达摩院发布首个大规模中文多模态评测基准MUGE

 

MUGE的推出旨在解决当前中文多模态领域下游任务数据集匮乏的问题,并且为广大研究者提供权威平台,从理解能力和生成能力两大角度去衡量算法模型的有效性。

 

链接:https://hub.baai.ac.cn/view/13240

 

11、计算复杂性50年:王浩与计算理论

 

库克(Cook)1971年发表的文章《定理证明过程的复杂性》被认为是计算复杂性的开山之作。从这篇文章的发表日开始算,今年(2021年),计算复杂性理论已经50岁了,且恰逢库克的导师王浩百年诞辰。本文回溯计算复杂性的起源,并力图梳理王浩和这门学科的关系。

 

链接:https://mp.weixin.qq.com/s/zOmnyifNiu9agkFNeDQ4IQ

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除