UpDLRM: Accelerating Personalized Recommendation using Real-World PIM Architecture

2024年06月20日
  • 简介
    深度学习推荐模型(DLRM)由于在处理大规模推荐任务时的有效性而在推荐系统中广受欢迎。由于嵌入层对内存容量和内存带宽的需求强烈,DLRM的嵌入层已成为性能瓶颈。本文提出了UpDLRM,利用实际的处理器内存(PIM)硬件UPMEM DPU来提高内存带宽并降低推荐延迟。DPU内存的并行性可以为嵌入查找中的大量不规则内存访问提供高聚合带宽,从而具有降低推理延迟的巨大潜力。为了充分利用DPU内存带宽,我们进一步研究了嵌入表分区问题,以实现良好的工作负载平衡和高效的数据缓存。使用真实世界的数据集进行评估表明,与仅使用CPU和CPU-GPU混合的对照组相比,UpDLRM在DLRM推理时间方面具有更低的推理时间。
  • 图表
  • 解决问题
    提高深度学习推荐模型(DLRM)的性能,特别是处理嵌入层的内存需求和带宽限制。
  • 关键思路
    使用实现处理器内存(PIM)硬件(UPMEM DPU)来提高内存带宽和降低推荐延迟。通过研究嵌入表分区问题,以实现良好的工作负载平衡和高效的数据缓存,充分利用DPU内存带宽。
  • 其它亮点
    实验使用真实世界数据集进行评估,结果表明UpDLRM相对于仅使用CPU和CPU-GPU混合的对照组,可以大大降低DLRM的推理时间。
  • 相关研究
    最近的相关研究包括:'Deep Neural Networks for YouTube Recommendations','A Hybrid Collaborative Filtering Model with Deep Structure for Recommender Systems','Neural Collaborative Filtering'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论