Generative AI Beyond LLMs: System Implications of Multi-Modal Generation

2023年12月22日
  • 简介
    随着大规模生成式人工智能模型的发展,从文本(1D)生成发展到包括图像(2D)和视频(3D)生成,处理空间和时间信息对于质量、性能和效率提出了独特的挑战。本文首次探索了多模式文本到图像(TTI)和文本到视频(TTV)生成模型的新系统设计空间。当前的模型架构设计分为两类:扩散和变压器模型。我们对八个代表性的TTI/TTV模型进行了系统性能表征,表明在应用了最先进的优化技术(如Flash Attention)之后,卷积在扩散型TTI模型的执行时间中占比高达44%,而线性层在变压器型TTI模型的执行时间中占比高达49%。我们还观察到,扩散型TTI模型类似于LLM推理的Prefill阶段,并且从Flash Attention获得的加速比变压器型TTI模型的Decode阶段高1.1-2.5倍。由于LLM的优化不能直接映射到TTI/TTV模型,因此我们必须对这些工作负载进行彻底的表征,以获得新的优化机会。在此过程中,我们定义了TTI/TTV模型的序列长度,并观察到扩散模型推理中序列长度可以变化高达4倍。我们还观察到,TTV工作负载的时间方面存在独特的系统瓶颈,其中Temporal Attention占总Attention时间的60%以上。总的来说,我们对系统性能进行深入的表征是设计高效和可部署的新型TTI/TTV工作负载系统的关键第一步。
  • 图表
  • 解决问题
    探索多模态文本生成模型的系统设计空间,解决空间和时间信息处理对于质量、性能和效率的挑战。
  • 关键思路
    通过对代表性的八个多模态文本生成模型进行系统性能特征分析,发现卷积在扩散式多模态文本生成模型中占据了最高的执行时间比例,而线性层在Transformer式多模态文本生成模型中占据了最高的执行时间比例。
  • 其它亮点
    论文提出了对于多模态文本生成模型的系统性能特征分析,为设计高效的系统提供了关键第一步。实验设计详细,使用了多个数据集,并提供了开源代码。
  • 相关研究
    最近的相关研究包括:《Generative Pretraining Transformers》、《DALL·E: Creating Images from Text》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问