一、论文

 

1、预训练模型的过去、现在与未来

 

来自清华大学计算机科学与技术系、中国人民大学信息学院等机构的多位学者深入研究了预训练模型的历史,特别是它与迁移学习和自监督学习的特殊关系,揭示了 PTM 在 AI 发展图谱中的重要地位。

 

链接:http://keg.cs.tsinghua.edu.cn/jietang/publications/AIOPEN21-Han-et-al-Pre-Trained%20Models-%20Past,%20Present%20and%20Future.pdf

 

2、谷歌1370亿参数模型比GPT-3更强

 

Quoc Le 等来自谷歌的研究者探索了一种简单的方法来提高大型语言模型在零样本情况下的性能,从而扩大受众范围。该研究采用具有 137B 参数的预训练模型并执行指令调整任务,对 60 多个通过自然语言指令表达的 NLP 任务进行调整。他们将这个结果模型称为 Finetuned LANguage Net,或 FLAN。

 

链接:https://arxiv.org/pdf/2109.01652.pdf

 

 

3、GPU的不确定性需训练深度神经网络的影响

 

最近来自索尼、波兰的波兹南密茨凯维奇大学、大阪大学等研究员联合发表了一篇文章,他们在研究神经网络不确定性的时候,偶然发现由 GPU 引起的不确定性可以提高深度神经网络的精度。该研究表明,深度神经网络在面对各种硬件和软件配置时表现出的「不确定性」有利于更昂贵 GPU,并在测试中发现,专门在 CPU 上训练的深度神经网络在相同的 epoch 上产生更高的误差。

 

链接:https://arxiv.org/pdf/2109.01451.pdf

 

 

4、Transformer新变体∞-former

 

来自 DeepMind 等机构的研究者提出了一种名为 ∞-former 的模型,它是一种具备无限长期记忆(LTM)的 Transformer 模型,可以处理任意长度的上下文。

 

链接:https://arxiv.org/pdf/2109.00301.pdf

 

5、一个「PPT」框架,让超大模型调参变简单

 

来自清华大学的刘知远、黄民烈等研究者提出了一个名为「PPT」的新框架。PPT=Pre-trained Prompt Tuning。

 

链接:https://mp.weixin.qq.com/s/nJpBULGGnB0Ifit8bb6SAw

 

6、HuggingFace|数据集:自然语言处理社区库

 

本文介绍了一个开源NLP资源库。公开可用的 NLP 数据集的规模、种类和数量随着研究人员提出了新的任务、更大的模型和新的基准。 数据集是一个旨在支持该生态系统的当代 NLP 社区图书馆。

 

代码:https://github.com/huggingface/datasets论文:https://arxiv.org/pdf/2109.02846v1.pdf

 

三、实践

 

1、为OneFlow添加新的前端语言

 

在这个项目中,我们将给 OneFlow 添加 Java 前端,支持模型加载和模型推理的功能。有了模型加载和推理功能,用户可以很容易在自己的 Java 应用中加载训练好的模型,将模型部署上线!

 

链接:https://mp.weixin.qq.com/s/EtV3TrY6X7frjj-JnqFngw

 

2、以OneFlow为例梳理深度学习框架的那些插值方法

 

OneFlow框架中的interpolate算子和Pytorch中的interpolate算子的功能是完全等价的。这篇文章就以OneFlow中这个算子的实现为例来盘点一下深度学习框架中的那些插值算法。

 

链接:https://mp.weixin.qq.com/s/3Mav_AQqum_pr0-oj7-J9g

 

3、MindSpore AI科学计算系列(6):AI科学计算综述阅读

https://zhuanlan.zhihu.com/p/407723828

 

4、MegFlow尝鲜测试

 

MegFlow 是一个面向视觉应用的流式计算框架, 目标是简单、高性能、帮助机器学习应用快速落地。

 

链接:https://zhuanlan.zhihu.com/p/409279000

 

5、用Welford算法实现LN的方差更新

 

BatchNorm和LayerNorm 是深度学习模型中经常使用的模块,效率和精度非常关键。刚开始OneFlow计算方差时使用了Two-pass 算法,发现计算结果总是比PyTorch 差一点,后来才发现Two-pass 虽然在数学上是正确的,不过数值计算的稳定性不够好,后来就改成和PyTorch一样的Welford算法了。

 

链接:https://mp.weixin.qq.com/s/t0x782mDkMo-ZBVEbK8gPg

 

三、活动

 

1、【报名】TF47:AI技术落地过程中的实践问题探讨

 

当前AI技术在落地过程中有哪些挑战?产业界有哪些AI技术落地的深入思考?如何在前瞻性研究与业务落地之间寻找平衡?2021年9月25日 9:00-17:30,北京市海淀区中关村软件园二期 网易北京研发中心 C1-M6 报告厅,与行业专家共同探讨!

 

链接:https://mp.weixin.qq.com/s/2sTHO4pwCL5q3b9SQzaRAQ

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除