- 简介最近的双列直插式内存模块(DIMM)开始支持处理内存(PIM),通过将它们的内存库与处理元素(PE)关联,使应用程序能够通过将内存密集型操作卸载到PE来克服数据移动瓶颈。已经证明,许多高度并行的应用程序受益于这些启用PIM的DIMM,但进一步的加速通常受到PE间通信巨大开销的限制。这主要来自于缓慢的CPU中介PE间通信方法,这会产生显着的性能开销,使得PIM启用的DIMM难以加速更广泛的应用程序。以前的研究试图缓解通信瓶颈,但它们缺乏足够的灵活性和性能,无法用于广泛的应用程序。本文介绍了PID-Comm,这是一种快速灵活的集体PE间通信框架,适用于商品化的PIM启用DIMM。PID-Comm的关键思想是将PE抽象为多维超立方体,并允许在超立方体的某些维度上属于PE的多个实例之间进行集体PE间通信。利用这种抽象,PID-Comm首先定义了八种集体PE间通信模式,允许应用程序轻松表达其复杂的通信模式。然后,PID-Comm提供了高性能的集体PE间通信模式实现,针对DIMM进行了优化。我们使用16个UPMEM DIMM和代表性并行算法的评估结果表明,与现有的PE间通信实现相比,PID-Comm的性能大大提高了最多4.20倍。 PID-Comm的实现可在https://github.com/AIS-SNU/PID-Comm上获得。
- 图表
- 解决问题本论文旨在解决处理内存(PIM)技术中的通信瓶颈问题,提出一种快速灵活的集体互操作处理器通信框架。
- 关键思路PID-Comm将PE抽象为多维超立方体,并允许在某些维度上属于某些维度的PE之间进行多个集体互操作通信实例。
- 其它亮点论文提出了八种集体互操作PE通信模式,提供了针对DIMMs优化的高性能实现。实验使用16个UPMEM DIMMs和代表性并行算法进行评估,相比现有的PE通信实现,PID-Comm的性能提高了最多4.20倍。
- 近年来,处理内存技术中的通信瓶颈问题已经得到了广泛关注。相关研究包括“Processing-in-Memory: A Review of Systems and Architectures”和“Exploring the Design Space of Processing-in-Memory Accelerators”。
沙发等你来抢
去评论
评论
沙发等你来抢