一、研究

 

1、分布式领域最重要的一篇论文,到底讲了什么?

 

分布式系统内的事件排序,涉及到最深层的本质问题。图灵奖得主Lamport在1978年发表的经典论文,《Time, Clocks, and the Ordering of Events in a Distributed System》[1],正是对这些本质问题的一个系统化的阐述。Lamport这篇论文之所以重要,在于它深入到了分布式系统的基础层面,并延伸到宇宙的本质。除了提出「Happened Before」、逻辑时钟、事件偏序等等一系列概念之外,它还划定了系统的能力边界。

 

链接:https://mp.weixin.qq.com/s/uhvS3a5_XSidEDfSgRb_UQ

 

2、向量时钟的本质

 

分布式系统中有两大问题:一没有全局时钟,二没有共享内存。很多时候我们都需要引入时间的概念,譬如来确定事件之间的顺序和因果关系。那分布式系统中既然没有全局的时钟,我们又该如何确定事件的顺序呢?

 

链接:https://mp.weixin.qq.com/s/xJK3W2suIwmHZrtRUzBqGg

 

3、Transformer拿下CV顶会大奖,微软亚研获ICCV 2021最佳论文

 

来自微软亚洲研究院的研究者获得 ICCV  2021 马尔奖(最佳论文)。论文作者主要包括来自中国科学技术大学的刘泽、西安交通大学的林宇桐、微软的曹越等人。

 

在 Swin Transformer 论文公开没多久之后,微软官方就在 GitHub 上开源了代码和预训练模型,涵盖图像分类、目标检测以及语义分割任务。目前,该项目已收获 4600 星。

 

论文地址:https://arxiv.org/pdf/2103.14030.pdf

项目地址:https://github.com/microsoft/Swin-Transformer

 

4、OpenAI 研究员最新博客:如何在多GPU上训练真正的大模型?

 

近年来,在大规模预训练语言模型的帮助下,许多NLP模型在基准测试任务中取得了更好的结果。如何训练大而深的神经网络是一个挑战,需要大量的GPU内存和很长的训练时间。本文回顾了几种流行的并行训练范例,以及各种模型结构和内存节省设计,使跨大量GPU训练大型神经网络成为可能。

 

链接:https://mp.weixin.qq.com/s/3oR9DoIVq843_U_EzFSndA

 

5、Google IREE项目研究使用编译器生成高效矩阵乘法的初步进展

 

https://google.github.io/iree/blog/2021-10-13-mmt4d/?trk=article_share_wechat

 

6、深度学习框架量化感知训练的思考及OneFlow的解决方案

 

这篇文章我会以PyTorch的两代量化方案开始切入谈一谈他们的好处和坏处,然后我会讲讲我在吸收PyTorch的部分优秀成果(FX模块)并加上一些自己的想法后把OneFlow的量化感知训练方案做成了什么样。

 

链接:https://mp.weixin.qq.com/s/N7O2dJdy7EzgUVu_TNG1Pg

 

7、OneFlow框架添加算子实践:expand和repeat

 

本文主要介绍如何在 OneFlow 框架中实现 expand 和 repeat 算子的,也希望通过这篇文章展示 OneFlow 框架的一些特色。

 

链接:https://mp.weixin.qq.com/s/ogTJ1tm1R95zLGpZ1L8MmQ

 

8、计算机架构史上的一次伟大失败,多数人都不知道

 

尽管Multiflow作为一家公司失败了,VLIW也没有像乔希所希望的那样改变科学计算,但它却在技术社区得到广泛传播,尤其在处理器领域被继承,发扬光大。从一开始很多计算机科学家认为VLIW技术不会起作用,到极大推动计算机架构的发展,回头来看,他们没有失败,乔希和Multiflow的技术远见和无畏追求为今天的计算机发展带来了巨大回报。

 

链接:https://mp.weixin.qq.com/s/7PEtnKLApsfzNg_EzmFG1A

 

二、项目

 

1、大模型高效释放生产性能,Hugging Face开源Transformer扩展优化新库

 

近日,Hugging Face 开源了一个新的程序包「Optimum」,旨在为 Transformer 的工业生产提供最佳的工具包,使得可以在特定的硬件上以最高的效率训练和运行模型。

链接:https://mp.weixin.qq.com/s/9HdHcFSelV6RTlThqJWYKg

 

 

2、微软、英伟达团队发布全球最大的生成语言模型MT-NLG

 

MT-NLG具有5300亿个参数,比#GPT-3# 大3倍。MT-NLG在阅读理解、常识推理、自然语言推理、词义消歧等一系列自然语言任务中表现出极佳的准确性。具有105个layer、基于Transformer的 MT-NLG 在零样本、单样本和少样本设置中改进了当前的SOTA模型,并在模型规模和质量上为#大规模语言模型#设定了新标准。

 

链接:https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/?continueFlag=52c12e2e2fade49f105ad607843177bb

 

3、一卡顶四卡,清华推出工具包BMInf玩转百亿大模型

 

近日,北京智源研究院与清华大学自然语言处理实验室团队联合发布了一款低资源大模型推理工具包BMInf,在最低配置为NVIDIA GTX 1060 6G的千元级显卡上便可以进行百亿模型的高效推理。

 

链接:https://mp.weixin.qq.com/s/LuJUp-S9lh-CB0wcsQD1cg

 

三、活动

 

1、重磅!AI基础软件峰会开启,全面提升算法能力

 

深度学习相对于传统统计机器学习功能上更强大,但内核却更简洁,仅须张量计算和梯度下降算法这两个核心概念就可包罗万象,这为包括AI编译器,面向训练和推理的AI框架,向量引擎以及MLOps平台等方向的AI基础设施软件带来了前所未有的标准化机会。AI基础设施软件技术横跨深度学习算法、编程语言、编译器、数据库、分布式系统、高性能网络和AI芯片等多个前沿领域,也是当前学术界和产业界共同感到兴奋的新领域。2021年10月30日,由DataFun主办的DataFunSummit:AI基础软件架构峰会如约而至,本次峰会由阿里云林伟老师,腾讯潘欣老师,一流科技袁进辉老师精心策划而来,将全程直播!

 

链接:https://mp.weixin.qq.com/s/lU36ZW8Nuwx1Le8vzwHmIA

 

2、面向人工智能芯片的编程语言和编译器 | CNCC2021

 

CNCC2021【面向人工智能芯片的编程语言和编译器】技术论坛将于【10月28日16:00-19:00】在深圳国际会展中心【媒体室2A】举行。本论坛邀请到了国内外知名学者和工业界领军人物一起,讨论在人工智能芯片的编程语言和编译器面临的挑战和机遇。 

 

链接:https://mp.weixin.qq.com/s/GgsoLkrrWXj3Kk4-tPl-8Q

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除