TURNIP: A "Nondeterministic" GPU Runtime with CPU RAM Offload

简介

一种缓解基于GPU的AI计算中的内存困难的明显方法是通过CPU卸载，其中数据在GPU和CPU RAM之间移动，因此使用廉价的CPU RAM来增加可用存储量。虽然CPU卸载是一个明显的想法，但由于CPU RAM和GPU RAM之间的相对较慢的传输速率，它可能会大大减慢计算速度。因此，任何用于CPU卸载的系统都需要确保当需要进行这种转移时，没有计算被阻塞等待转移完成。使用CPU卸载时的一个关键挑战是内存传输会向系统引入不确定性：在运行时之前无法知道传输何时结束，因此无法确定运行操作的最佳顺序以确保没有阻塞。在本文中，我们描述了TURNIP，它是一个使用CPU卸载运行AI计算的系统。TURNIP的关键创新在于将AI计算编译成依赖图，该图使TURNIP运行时可以自由地以许多不同的顺序运行操作，例如GPU内核调用；在运行时，TURNIP根据实时事件选择最佳顺序。
图表
解决问题

解决GPU计算中的内存问题，通过CPU offload来扩大存储容量，但是数据传输速度慢会导致计算速度变慢，如何解决这个问题？
关键思路

将AI计算编译成依赖图，使得TURNIP运行时可以自由选择不同的操作顺序，以响应实时事件，从而解决CPU offload中的内存传输问题。
其它亮点

TURNIP是一个用于运行AI计算的系统，通过编译成依赖图解决CPU offload中的内存传输问题。实验结果表明，TURNIP可以在不影响计算速度的情况下，提高存储容量。论文提供了开源代码和使用的数据集。值得进一步研究的是如何在更大规模的计算中使用TURNIP。
相关研究

最近的相关研究包括使用GPU加速计算的研究，以及解决内存问题的研究。其中一些相关的论文包括“Accelerating Deep Learning with GPU Clusters”，“Efficient Memory Management for Deep Learning on GPUs”。

TURNIP: A "Nondeterministic" GPU Runtime with CPU RAM Offload

评论