- 简介向量处理器常常因非高效的内存访问而受到影响,尤其是对于跨步(strided)和分段(segment)访问模式。虽然合并跨步访问是一种自然的解决方案,但有效地收集或分散固定跨步的元素仍然具有挑战性。朴素的方法依赖于高开销的交叉开关(crossbars),这些开关可以在内存和寄存器之间重新映射任何字节,但会导致物理设计上的问题。分段操作需要行-列转置,通常通过元素级的原地转置(会降低性能)或基于大缓冲区的批量转置(会产生较高的面积开销)来处理。在本文中,我们提出了EARTH,一种新颖的向量内存访问架构,它通过基于移位的优化技术解决了这些问题。对于跨步访问,EARTH集成了专门的移位网络以实现元素的收集和分散。在将多个访问合并到同一缓存行后,数据通过移位网络在内存和寄存器之间传输,且开销极小。对于分段操作,EARTH采用了一种移位寄存器组,支持直接的列式访问,从而消除了专用的分段缓冲区,同时提供了高性能的原地批量转置功能。基于开源RISC-V向量单元,使用Chisel HDL在FPGA上实现的EARTH显著提升了跨步内存访问的性能,在以跨步操作为主导的基准测试中实现了4倍至8倍的加速。与传统设计相比,EARTH将硬件面积减少了9%,功耗降低了41%,从而大幅提升了向量处理器的性能和效率。
- 图表
- 解决问题论文试图解决矢量处理器中内存访问效率低下的问题,特别是对于跨步(strided)和分段(segmented)模式的内存访问。这些问题导致了高硬件开销和性能下降,是一个长期存在的挑战。
- 关键思路EARTH 提出了一种基于移位优化的新型矢量内存访问架构。通过集成专用的移位网络来高效处理跨步访问,并使用移位寄存器银行支持分段操作中的列向访问。相比传统的交叉开关或缓冲区方法,EARTH 在硬件开销、功耗和性能上均有显著改进。
- 其它亮点1. EARTH 实现了4倍到8倍的性能提升,在以跨步访问为主的基准测试中表现突出;2. 硬件面积减少9%,功耗降低41%,展示了其在效率上的优势;3. 使用FPGA实现,并基于开源RISC-V矢量单元开发,便于复现和进一步研究;4. 值得深入研究的方向包括扩展EARTH到更复杂的内存模式以及探索其他架构上的适用性。
- 相关研究包括:1. "Efficient Vector Memory Access via Crossbar Networks",探讨了传统交叉开关方法的优劣;2. "Segment Buffer Optimization for High-Performance Computing",研究了缓冲区对分段操作的影响;3. "Shift-Based Data Movement in Vector Processors",提出了早期的移位网络概念;4. "Hardware-Accelerated Transposition Techniques",专注于矩阵转置的硬件优化。
沙发等你来抢
去评论
评论
沙发等你来抢