- 简介新兴的多模型工作负载,特别是最近的大型语言模型等重型模型,显著增加了硬件的计算和存储需求。为了解决这种不断增长的需求,设计可扩展的硬件架构成为一个关键问题。在最近的解决方案中,基于2.5D硅中介多芯片模块(MCM)的人工智能加速器因其在低工程成本和可组合性方面的重大优势而被积极探索作为一种有前途的可扩展解决方案。然而,先前的MCM加速器基于具有固定数据流的同质架构,由于其有限的工作负载适应性,在高度异构的多模型工作负载中遇到了重大挑战。因此,在这项工作中,我们探索了异构数据流MCM人工智能加速器的机会。我们确定了在异构数据流MCM人工智能加速器上调度多模型工作负载是一个重要且具有挑战性的问题,由于其规模的重要性和规模,即使在6x6芯片上单个模型的情况下,也达到了O(10 ^ 18)的规模。我们开发了一组启发式方法来导航巨大的调度空间,并将它们编码到调度程序中,使用了诸如芯片间流水线等先进技术。我们对数据中心多租户和AR / VR用例的十个多模型工作负载场景进行评估,结果表明,与同质基线相比,我们的方法在平均能量延迟乘积(EDP)方面分别实现了35.3%和31.4%的降低。
- 图表
- 解决问题本文旨在解决高度异构的多模型工作负载对硬件的计算和存储需求增加的问题。之前的解决方案使用基于同构架构的MCM加速器,但是这种加速器在面对高度异构的多模型工作负载时存在适应性不足的问题。
- 关键思路本文提出了一种基于异构数据流的MCM AI加速器,并开发了一组启发式算法来调度多模型工作负载。本文的方法能够在数据中心多租户和AR / VR使用情况下实现比同构基线分别降低35.3%和31.4%的能耗延迟乘积(EDP)。
- 其它亮点本文的亮点在于提出了一种基于异构数据流的MCM AI加速器,并开发了一组启发式算法来调度多模型工作负载。实验结果表明,相比同构基线,本文的方法能够在数据中心多租户和AR / VR使用情况下实现较大的能耗延迟乘积(EDP)降低。本文还使用了十个多模型工作负载场景进行了评估,并展示了实验效果。
- 在最近的相关研究中,也有一些关于多模型工作负载调度的研究,例如“Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics”和“Dynamic Model Selection for Multi-Task Learning with Heterogeneous Models”。
沙发等你来抢
去评论
评论
沙发等你来抢