1月25日,Meta联合英伟达正式推出了一个全新的超算——「人工智能研究超级集群」( AI Research SuperCluster,缩写RSC)。

 
Meta的计划也很「朴素」,首先把CV、NLP、语音识别等技术所需的模型都做到最大,参数量差不多「数万亿」个吧。
 
这些模型可以在数百种不同的语言中工作;无缝分析文本、图像和视频;开发新的增强现实工具等等。
 
然后再构建全新的人工智能系统。例如,为使用不同语言的人群提供实时语音翻译,这样大家就可以就研究项目无缝协作,或者一起畅玩AR增强现实游戏。
 
最终,RSC将和相关的AI工作一起,为构建「元宇宙」铺平道路。
 
 
值得一提的是,RSC从论文灵感到实物只用了18个月的时间。
 

要整就整最大的

 
自2013年Facebook正式设立人工智能实验室开始,Meta在AI方面取得了很多重大进展。
 
诸如从大量未标注的样本中学习的自监督学习,以及让AI模型能够进行更有效推理的Transformer。
 
不过,想要发挥自监督学习和基于Transformer的模型的优势,无论是视觉、语音、语言,还是关键信息的识别,都需要训练越来越大、越来越复杂的模型。
 
计算机视觉需要以更高的数据采样率来处理更大、更长的视频。语音识别需要在有大量背景噪音的挑战性场景中也能很好地工作,如聚会或音乐会。NLP需要理解更多的语言、方言和口音。
 
而其他领域的进步,包括机器人技术、具身人工智能和多模态人工智能,将能够完成现实世界中的任务。
 
 
为此,Meta在2017年打造了第一代超算。其中,一个集群中拥有22000个英伟达V100 Tensor Core GPU,每天执行35000个训练作业。
 
2020年初,Meta决定从0开始设计一个新的超算,进而在大到一个Exabyte的数据集上训练出超过一万亿个参数的模型,换句话说,这个数据量相当于36000年的高质量视频。
 
反正神经网络模型中的参数数量也一直在猛增,例如自然语言处理器GPT-3有1750亿个参数,超级计算机跑超级神经网络AI,没毛病。
 
具体参数
 
RSC由760个英伟达DGX A100系统构成运算节点,总共有6080个英伟达A100 GPU在Quantum InfiniBand网络上连接,达到每秒1895千万亿次运算的TF32程度性能。
 
RSC的存储层有175PB的Pure Storage FlashArray,46PB的Penguin Computing Altus系统的缓存存储,以及10PB的Pure Storage FlashBlade。
 
 
20倍性能增益
 
Meta的第一代超算设计于2017年,其中一个集群中拥有22000个英伟达V100 Tensor Core GPU,每天执行35000个训练作业。
 
RSC的早期基准测试表明,较于第一代超算,它运行计算机视觉工作流程的速度提高了20倍,运行英伟达集体通信库(NCCL)的速度提高了9倍多,训练大规模NLP模型的速度提高了3倍。
 
这意味着一个拥有数百亿个参数的模型可以在三周内完成训练,而之前是九周。
 
在2022年度的第二阶段,RSC的GPU数量将从6080个增加到16000个,使AI的训练性能提高2.5倍以上,成为世界上最快的人工智能超级计算机。
 
在混合精度方面,RSC将达到惊人的每秒5百亿亿次运算。存储系统则会扩容到Exabyte(10亿GB)级别,并具有16TB/s的目标传输带宽。
 
此外,InfiniBand结构将支持16000个端口,采用双层拓扑结构且没有超占比。
 
作为对照物,在最新一轮MLPerf神经网络训练基准测试中,最大的系统是Nvidia部署的4320-GPU系统。
 
其可在不到一分钟的时间内训练自然语言处理器BERT。然而,与Meta的RSC将使用的数万亿个参数相比,BERT只有1.1亿个参数。
 
真是小巫见大巫了。
 
 
超算的优势
 
负责RSC的Meta项目经理凯文·李称,超级计算机的巨型规模在多方面都很有必要。
 
首先,Meta公司本身的基础业务就带来了不间断处理海量信息的需求,这对数据处理性能的规模下限有很高要求。
 
其次,AI研发项目使用的数据量也有下限要求,因为数据集内容越复杂越整全,研究结果就越好。
 
训练AI模型的算力下限,远高于运行AI模型的算力下限。这就是你的智能手机在扫脸认证时不需要连上堆满服务器的数据中心的原因。
 
再次,所有这些基础设施的管理是很大的挑战。所以大规模带来的管理去碎片化,简化了管理工作,提高了管理工作、耗能、占地等任务的效率。
 

如何造一个AI超算

 
设计、建造RSC这类项目,并不只消考虑性能参数,而是要用当今最好的方案在尽可能大的范围内实现这些性能。
 
与外界伙伴协作
 
所有这些基础设施必须非常可靠耐用,因为Meta公司估计有些实验可以运行数周,并需要成千上万的GPU。而且使用RSC的整个体验必须对研究人员友好,以便研究团队可以轻松地探索广泛的人工智能模型。
 
这一目标实现的很大一部分,是Meta与长期合作伙伴的协力结果,他们也都在2017年帮助设计了Meta的第一代AI基础设施。
 
SGH旗下的企鹅计算公司是Meta的架构和管理服务合作伙伴,它与Meta的运营团队合作,进行硬件集成以部署集群,并帮助建立控制平面的主要部分。
 
Pure Storage为Meta提供了强大的、可扩展的存储解决方案。
 
英伟达为Meta提供了以尖端系统、GPU和InfiniBand结构为特色的AI计算技术,以及用于集群的NCCL等软件栈组件。
 
 
开发中应对时势变故
 
但在RSC的发展过程中还出现了其他意想不到的挑战--即新冠大流行。
 
新冠让RSC初始时成为完全的远程项目,项目团队得用大约一年半的时间里将其从一个简单的共享文件变成了一个正常运作的工作集群。
 
新冠和全行业的晶圆供应短缺还带来了供应链问题,使得从芯片、光学组件到GPU,甚至建材都难以获得--所有这些都必须按照新的安全规程进行运输。
 
为了有效地建立这个集群,Meta的项目团队不得不从头开始设计,创造了许多全新的Meta独有流程,并在此过程中重新思考以前的先例。
 
比如Meta必须围绕其数据中心设计编写新的规则--包括其冷却、电源、机架布局、布线和网络(包括一个全新的控制界面),以及其他重要的考量因素。
 
 
Meta必须确保公司内的所有团队,从建筑到硬件到软件和人工智能,都与合作伙伴步调一致地工作。
 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除