Performance comparison of Dask and Apache Spark on HPC systems for Neuroimaging

Concurrency and Computation: Practice and Experience (2023) 35(21):e7635
2024年06月03日
  • 简介
    本文中,我们比较了两个流行的Python API大数据引擎——Apache Spark和Dask,在处理神经影像管道时的运行性能。我们使用三个合成的神经影像应用程序处理606GB的BigBrain图像和一个实际管道来处理成千上万个解剖学图像的数据。我们在专用的HPC集群上使用Lustre文件系统对这些应用程序进行基准测试,同时使用不同的节点数、文件大小和任务持续时间的组合。我们的结果表明,尽管Dask和Spark之间存在轻微差异,但对于数据密集型应用程序,引擎的性能是可比较的。但是,Spark需要比Dask更多的内存,这可能会导致更慢的运行时间,具体取决于配置和基础设施。总的来说,限制因素是数据传输时间。虽然这两个引擎都适用于神经影像,但需要更多的努力来减少数据传输时间和应用程序的内存占用。
  • 图表
  • 解决问题
    比较Apache Spark和Dask两种流行的大数据引擎在神经影像处理中的运行时性能,以及它们的内存使用情况。
  • 关键思路
    Apache Spark和Dask两种引擎的性能相当,但Spark需要更多的内存,具体取决于配置和基础设施。数据传输时间是限制因素。需要进一步减少应用程序的数据传输时间和内存占用。
  • 其它亮点
    实验使用了三个神经影像处理应用程序和数千个解剖图像的实际管道,以处理606GB的BigBrain图像。结果表明,Dask和Spark两种引擎的性能相当。但是,Spark需要更多的内存,这可能会导致运行时间变慢。需要进一步减少数据传输时间和内存占用。
  • 相关研究
    最近的相关研究包括:1. 'Scalable Data Processing in Python with Dask';2. 'Apache Spark: A Unified Engine for Big Data Processing'。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论