- 简介Checkpointing(C)和还原(R)是GPU任务的关键组成部分。POS是一个基于操作系统的GPU C / R系统:它可以透明地检查点或还原使用GPU的进程,而无需应用程序的任何合作,这是现代系统(如云)所需的关键功能。此外,POS是第一个可以同时执行C / R和应用程序执行的操作系统级C / R系统:这是一个关键功能,当进程仅在CPU上运行时可以轻松实现,但当进程使用GPU时变得具有挑战性。问题是如何在透明度由于缺乏应用程序语义而导致并发执行期间确保一致性。 CPU进程可以利用操作系统和硬件分页来修复没有应用程序语义的不一致性。不幸的是,GPU为了高性能而绕过操作系统和分页。 POS通过在运行时推测性地提取GPU内核的缓冲区访问信息来填补语义差距。由于GPU内核的简单和良好结构的特性,我们的推测性提取(带有运行时验证)在从视觉,大型语言模型到强化学习的领域涵盖的应用程序上实现了100%的准确性。基于提取的语义,我们系统地将C / R与应用程序执行重叠,并在各种任务下实现比最先进的操作系统级GPU C / R更高的性能,包括训练容错性,实时GPU进程迁移以及基于GPU的无服务器计算的冷启动加速。
-
- 图表
- 解决问题POS系统是一个OS级别的GPU C/R系统,可以在不需要应用程序合作的情况下透明地检查点或恢复使用GPU的进程,但如何在缺乏应用程序语义的情况下确保一致性是一个挑战。
- 关键思路通过在运行时推断GPU内核的缓冲区访问信息,POS解决了GPU进程与C/R并发执行的语义差距问题,并实现了与应用程序执行的重叠,从而在各种任务下实现了比现有技术更高的性能。
- 其它亮点POS系统可以透明地检查点或恢复使用GPU的进程,而不需要应用程序合作。通过推断GPU内核的缓冲区访问信息,POS解决了GPU进程与C/R并发执行的语义差距问题。实验展示了POS在各种任务下实现了比现有技术更高的性能,包括训练容错性、实时GPU进程迁移和GPU基础无服务器计算的冷启动加速。
- 与POS相关的研究包括:Checkpointing and Rollback-Recovery for GPU-Accelerated HPC Applications Using Transparent Kernel-level Management;Transparent Checkpoint-Restart of GPU-Accelerated Applications with Unmodified User-space Runtime Systems;Checkpointing and Restarting of GPU Applications Using a Transparent User-level Middleware。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流