随着大规模生成式人工智能模型的发展,从文本(1D)生成发展到包括图像(2D)和视频(3D)生成,处理空间和时间信息对于质量、性能和效率提出了独特的挑战。本文首次探索了多模式文本到图像(TTI)和文本到视频(TTV)生成模型的新系统设计空间。当前的模型架构设计分为两类:扩散和变压器模型。我们对八个代表性的TTI/TTV模型进行了系统性能表征,表明在应用了最先进的优化技术(如Flash Attention)之后,卷积在扩散型TTI模型的执行时间中占比高达44%,而线性层在变压器型TTI模型的执行时间中占比高达49%。我们还观察到,扩散型TTI模型类似于LLM推理的Prefill阶段,并且从Flash Attention获得的加速比变压器型TTI模型的Decode阶段高1.1-2.5倍。由于LLM的优化不能直接映射到TTI/TTV模型,因此我们必须对这些工作负载进行彻底的表征,以获得新的优化机会。在此过程中,我们定义了TTI/TTV模型的序列长度,并观察到扩散模型推理中序列长度可以变化高达4倍。我们还观察到,TTV工作负载的时间方面存在独特的系统瓶颈,其中Temporal Attention占总Attention时间的60%以上。总的来说,我们对系统性能进行深入的表征是设计高效和可部署的新型TTI/TTV工作负载系统的关键第一步。
提问交流