Galaxy: A Resource-Efficient Collaborative Edge AI System for In-situ Transformer Inference

2024年05月27日
  • 简介
    基于Transformer的模型已经在边缘端解锁了许多强大的智能应用,例如智能家居中的语音助手。传统的部署方法将推理工作负载转移到远程云服务器上,这会给骨干网络带来巨大的压力,并引起用户的隐私担忧。为了解决这个问题,最近已经认识到需要进行就地推理以实现边缘智能,但它仍然面临着强烈的挑战,因为密集的工作负载与有限的设备计算资源之间存在冲突。在本文中,我们利用观察到许多边缘环境通常包括一组富有信任的边缘设备,这些设备具有空闲资源,并提出了Galaxy,这是一个协作式边缘AI系统,它跨越异构边缘设备的资源壁垒,以实现高效的Transformer推理加速。Galaxy引入了一种新颖的混合模型并行性来编排协作推理,以及一种异构感知的并行性规划,以充分利用资源潜力。此外,Galaxy设计了一种基于瓦片的细粒度通信和计算重叠,以减轻张量同步对带宽受限边缘环境下推理延迟的影响。基于原型实现的广泛评估表明,Galaxy在各种边缘环境设置下都比现有技术表现出色,实现了高达2.5倍的端到端延迟降低。
  • 图表
  • 解决问题
    本论文旨在解决边缘智能中模型推理的资源限制和隐私问题,提出了一种跨异构边缘设备的协作边缘AI系统Galaxy。
  • 关键思路
    Galaxy采用混合模型并行和异构感知并行规划实现协作推理,同时采用基于瓷砖的细粒度重叠通信和计算来缓解张量同步对推理延迟的影响。
  • 其它亮点
    论文通过实验验证了Galaxy在不同边缘环境下的优越性,实现了高达2.5倍的端到端延迟降低。
  • 相关研究
    与该论文相关的研究包括边缘计算、协作计算、异构计算、模型并行等领域的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论