稀疏矩阵矢量乘法(SpMV)是科学计算和图分析等诸多应用领域的重要基础。由于其受限于内存的固有特性,SpMV在面向吞吐量的架构(如GPU)上的性能受到处理器与内存之间有限带宽的限制。3D堆叠的发展通过将计算逻辑集成到内存中提供了利用超高带宽的新机会,使得内存处理(PIM)架构变得可行。

 

与传统存储接口相比,PIM体系结构提供了更高的有效带宽,但是在加速器设计中仍存在挑战。 首先,访问其他存储区的延迟要比本地存储区延迟高得多,PE设计应掩盖这些高延迟,以充分利用存储区内的带宽。 其次,由于互连带宽远小于存储区内的带宽,因此应将内存访问尽可能地保持在本地,以减轻互连的负担。 第三,靠近存储区的PEs具有严格的面积限制,这要求计算逻辑必须简单但有效。 另外,当在PE上分配非零元素时,也存在工作负载平衡和利用输入向量局部性等挑战。

 

论文基于PIM架构开发了一个名为SpaceA的SpMV加速器。 SpaceA在存储区附近集成了计算逻辑,以利用存储区的带宽。 SpaceA包含硬件和数据映射设计功能,可缓解不规则的内存访问模式的对充分利用内存带宽的制约。SpaceA硬件设计包含两个独特的功能:(1)利用内存请求功能来隐藏对位于非本地内存中的数据的访问延迟; (2)在存储区内集成了内容可寻址存储器(CAM),以重用输入向量。采用新颖数据映射方案,将稀疏矩阵划分为不同的存储体,以最大化输入向量的数据局部性,并实现每个存储区附近的处理元件(PE)之间的工作负载平衡。总体而言,SpaceA与相应的映射结合可实现比GPU基准平均提高13.54倍的速度、节能87.49%。此外,论文对图分析进行了案例研究,与最先进的图形加速器Tesseract和GraphP相比,SpaceA在性能和能效方面具有很高的竞争力。

 

图1. SapceA体系结构设计:(a)通过内存网络连接的内存多维数据集(b)多维数据集的概述(c)库组中的组件(d)库控制器中的组件。

内容中包含的图片若涉及版权问题,请及时与我们联系删除