微软和英伟达联合发布了迄今为止最大、最强的人工智能语言模型:Megatron-Turing自然语言生成模型(MT-NLG)。其包含5300亿个参数,在一系列自然语言任务包括阅读理解、常识推理和自然语言推理中实现了「无与伦比」的准确性。 
就在昨天,微软和英伟达联合发布了5300亿个参数的Megatron-Turing自然语言生成模型(MT-NLG)。
 
号称同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。
 
MT-NLG汇集了微软DeepSpeed项目和英伟达Megatron项目在并行训练和超大型人工智能模型的训练优化的成功经验。
 
作为微软Turing NLG 17B和英伟达Megatron-LM的后继者,MT-NLG的参数量是现有的最大英文语言生成模型(GPT-3)的3倍,并在各种自然语言任务如:完形填空、阅读理解、常识推理、自然语言推理、词义消歧中纷纷屠榜。
 
基于105层Transformer的MT-NLG在zero-shot、one-shot和few-shot方面对现有的SOTA模型进行了改进。
豪华硬件+3D并行计算,全力输出
 
模型训练是在基于NVIDIA DGX SuperPOD的Selene超级计算机集群上以混合精度完成的,该计算机由560台DGX A100服务器提供动力,通过HDR InfiniBand联网。
 
每个DGX A100都有八个NVIDIA A100 80GB张量核心图形处理器,通过NVLink和NVSwitch完全相互连接,提供海量计算能力,可以在合理的时间范围内训练具有数万亿参数的大模型。
 
具体地说,Megatron-LM的张量切片来缩放节点内的模型,并使用DeepSpeed的流水线并行性来跨节点缩放模型。
 
例如,对于5300亿模型,每个模型副本会跨越280个NVIDIA A100 GPU,在一个节点内有8个张量切片,节点间有35道流水线并行,再被DeepSpeed的数据并行进一步扩展到数千个GPU。
 
这样一台经过精心打磨的计算加特林拥有让人叹为观止的系统端到端吞吐量,在Selene超级计算机集群上的420台DGX A100服务器上,设置批处理大小为1920,可以观察到迭代时间最低缩短至44.4秒。这相当于每个GPU都放飞自我,直接飙到每秒113万亿次浮点运算。
 
大餐开宴
 
MT-NLG训练采用15个数据集,总共包含3390亿个token。 
 
主菜的原料是来自之前的工作The Pile,萃取其精华,构建了从Books3到GitHub,11个数据集。
 
小菜是从两个最近的Common Crawl (CC)原始HTML文件中提取的文本,使用在高质量数据上训练好的分类器对提取的文档进行评分,再根据文档的评分过滤文档。
 
为了使训练多样化,最后附上RealNews和CC-Stories两个数据集作为饭后甜点。
 
上菜上重这种事偶尔也会发生,相同的内容可以出现在不同数据集的多个文档中。在文档级别,使用最小哈希LSH计算稀疏文档图和其中的相关组成可以有效识别重复文档。
 
 
众所周知,一个强大的预训练语言模型(LM)无需微调就可以在各类NLP任务中取得相当优异的结果。
 
微软和英伟达在测试MT-NLG零样本和小样本的学习能力方面,选择了横跨五个不同领域的八个任务:
 
  1. 在文本预测任务LAMBADA中,预测给定段落的最后一个词。
  2. 在阅读理解任务RACE-h和BoolQ中,根据给定段落生成问题的答案。
  3. 在常识推理任务PiQA、HellaSwag和Winogrande中,每个任务都需要用一定程度的「常识」,而不是语言的统计模式来解决。
  4. 对于自然语言推理,ANLI-R2和HANS针对过去模型的典型失败案例。
  5. 词义辨析任务WiC从上下文中评估多义词的理解。
 
测试在开源项目lm-evaluation-harness基础上进行了适当的修改,从而与微软和英伟达之前的工作更加接近。
 
 
MT-NLG在PiQA和LAMBADA测试集上刷新了SOTA,并在剩余类别中超过了其他的同类模型。
 

参考

https://mp.weixin.qq.com/s/59DelHwrmGGGxHmF5Idv-g

内容中包含的图片若涉及版权问题,请及时与我们联系删除