每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Preliminary report: Initial evaluation of StdPar implementations on AMD GPUs for HPC
Wei-Chen Lin,
Simon McIntosh-Smith,
Tom Deakin
2024年01月05日
最近,AMD平台不支持将C++17 PSTL(StdPar)程序卸载到GPU。我们先前的工作强调了StdPar如何在NVIDIA和Intel GPU平台上实现良好的性能。在那项工作中,我们承认了AMD过去的努力,例如HCC,但不幸的是,它已经被弃用,并且不支持更新的硬件平台。 最近,AMD、Codeplay和AdaptiveCpp(以前称为hipSYCL或OpenSYCL)的发展使得StdPar程序在AMD GPU上运行的路径变得多样化。这份非正式报告讨论了我们对目前可用的AMD GPU上StdPar实现的经验和评估。我们使用我们的HPC mini-apps套件进行基准测试,其中包括许多异构编程模型的端口,包括StdPar。然后,我们使用所有可用的StdPar编译器比较StdPar的性能与支持AMD GPU的现代异构编程模型:HIP、OpenCL、Thrust、Kokkos、OpenMP、SYCL。在适当的情况下,我们讨论了我们在评估过程中遇到的问题和应用的解决方法。 最后,本报告中讨论的StdPar模型在很大程度上取决于统一共享内存(USM)性能,很少有AMD GPU对这个特性有适当的支持。因此,本报告展示了一种基于主机端用户空间页面故障解决方案的概念验证,用于使用HIP API的模型。我们讨论了使用相同基准测试集合实现的解决方案的性能改进。
65
热度
DistComp
cs.PF
PDF
解读
Telescope: Telemetry at Terabyte Scale
Alan Nair,
Sandeep Kumar,
Aravinda Prasad,
...
2023年11月17日
近年来,需要数千兆字节内存的数据密集型应用程序变得越来越普遍。为了满足这些应用程序的内存需求,数据中心采用了近距离和远距离内存层次结构。在这样的系统中,准确、高效和及时地识别热数据和冷数据并将其放置在适当的层次结构中对性能至关重要。不幸的是,现有的热数据和冷数据检测的最新遥测技术在数千兆字节的规模下效果不佳。 我们提出了一种名为Telescope的新技术,它通过对应用程序的页表树的不同级别进行分析,快速高效地识别热数据和冷数据。Telescope基于这样一个观察结果:对于一个需要大量内存和快表的工作负载,页表树的高级别在硬件页表查找过程中也经常被访问。因此,页表树的高级别的热度基本上捕捉了其子树或地址空间子区域在较粗粒度上的热度。我们利用这个洞察力,快速收敛到几兆字节的热数据,并高效地识别出数千兆字节的冷数据,适用于数千兆字节甚至是拍字节级别的应用程序。重要的是,这样的技术可以无缝地扩展到拍字节级别的应用程序。 在具有5TB内存占用的微基准测试中,Telescope的遥测技术实现了90%以上的精度和召回率,仅使用0.009%的单个CPU利用率。基于Telescope的内存分层技术相比其他最先进的遥测技术,可以实现1-2TB内存占用的真实基准测试的5.6%至34%的吞吐量提高。
57
热度
cs.OS
cs.AR
DB
PDF
解读