商汤AI 大装置：一天训练完GPT-3

在上海临港新片区，一座宛如芯片的建筑群将在今年年底投入使用。这是商汤正在建设的人工智能计算中心（Artificial Intelligence Data Center，AIDC），全部建成后 AI 计算峰值速度将达到 3740 Petaflops（1 petaflop 等于每秒 1 千万亿次浮点运算），可以在一天之内把人类石器时代到现在所有时间录成的视频计算完成，也能在一天之内完整训练 OpenAI 的千亿参数模型 GPT-3。

但是，AIDC 仅仅是商汤 AI 大装置的一部分，而远非全部。从结构上看，整个大装置共分为三层：

一是算力层。该层以 AIDC 为基础，兼容 AI 芯片和 AI 传感器的强大能力。
二是平台层。这一层融合了商汤的数据平台、高性能计算引擎、深度学习训练框架（SenseParrots）以及模型生产平台等，打造了创新的人工智能通用算法开发平台，实现从数据存储、标注到模型训练、生产、部署、测试的全链路、批量化过程。
三是算法层。这一层包含各种算法工具箱，不仅有城市交通、园区等高频应用场景算法，还有火灾、垃圾检测等长尾低频的算法。截止目前，商汤已经推出 13000 多个技术模型，以及 17000 多个商业模型。同时他们也推出了 OpenMMLab 开源算法体系，该体系已在 Github 上获得 3 万多颗星。

建设这么一个 AI 大装置需要投入大量的精力（AIDC 总投资高达 56 亿元），但在商汤看来，这是面向未来必须迈出的一步。

「在经历了几年的产业化之后，AI 已经到了一个全新的阶段，可以说一些简单的问题已经基本上被解决了。下一步就是要深入到更广泛的行业里面，需要新一轮的突破和创新。」林达华说道。

GPT-3 等超大模型的出现让商汤看到了实现下一个突破的希望：「以前我们都是针对一些具体的问题或者高度定制化的场景去生产一些中小模型。但随着 AI 落地推演到越来越广的领域，成千上万的具体问题（长尾问题）开始涌现。如果每个问题都有很多的研究人员投入进去，那么我们就很难深化 AI 的进一步落地。这个时候，整个行业需要通用性更强的模型，用一个模型支撑更多的任务。一方面，这种模型能够让 AI 的研发、落地效率得到一个质的提升；另一方面，它们能够更好地去回应综合场景的问题，比如智慧城市、智慧医疗等。这些任务都需要通过多个任务综合解决。」

但是，模型的通用性越强，需要的数据、算力往往也越多，这便是商汤建设 AI 大装置的底层逻辑。

当然，AI 大装置也不是一朝一夕就建成的。其实早在 2018 年 4 月，商汤就已经开始布局人工智能计算原型机研制项目，虽然当时并不被看好。但好在，后续出现的一些大模型已经显示出了解决长尾问题的巨大潜力。

如今，这个 AI 大装置已经开始发挥它的作用。林达华透露说，「我们几乎所有的研究工作都是在这个大装置的基础上进行的。」「它为做算法研究的同学提供了充足的算力，使他们能够快速地进行实验试错。」此外，大装置中所积累的实用工具也缩短了创新的验证周期。

借助大装置，商汤已经在超大模型技术研究方面取得一定成绩。例如在计算机视觉的卷积神经网络（CNN）领域，通常模型参数都在 1 亿以下，但商汤的 AI 框架 SenseParrots 能支持 50 亿参数超大视觉模型的训练。AIDC 完全投入使用后，计划支持的超大视觉模型训练参数可达更高的数量级。

由于可以显著降低 AI 落地的门槛，商汤的 AI 大装置对于推动整个人工智能行业的发展也有着重要的战略意义。林达华表示，「从整个社会的角度来说，AI 基础设施将逐渐从一个企业内部的平台，发展为逐渐提供开放服务，并最终演变成一个面向整个生态、整个社区的具有公共性质的设施。这些设施的构建能够有效地支撑整个生态，最终使得整个 AI 人才的基础变得更加宽广，从而进一步推动 AI 产业的深化。」

内容中包含的图片若涉及版权问题，请及时与我们联系删除

商汤AI 大装置：一天训练完GPT-3

评论列表

评论