Integrated Hardware Architecture and Device Placement Search

向作者提问

NEW

简介

分布式深度学习训练涉及硬件加速器架构和设备放置策略之间的动态相互作用。这是第一项探索通过新颖算法确定最佳架构和设备放置策略的协同优化工作，提高计算资源、内存使用和数据分布的平衡。我们的架构搜索利用张量和向量单元，确定它们的数量和维度，以及芯片内外存储器配置。它还确定了微批量大小，并决定重新计算或存储激活，平衡训练的内存占用和存储大小。对于每个探索的架构配置，我们使用整数线性规划（ILP）来找到在加速器上执行运算的最佳调度。然后，ILP结果与动态规划解决方案集成，以确定最有效的设备放置策略，结合数据、管道和张量模型并行处理多个加速器。我们的方法在大型语言模型上实现了比最先进的TPUv4和Spotlight加速器搜索框架更高的吞吐量。PHAZE的整个源代码可在https://github.com/msr-fiddle/phaze上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在通过新颖的算法，优化硬件加速器架构和设备放置策略的动态交互，以提高深度学习训练的分布式执行效率。具体来说，它通过优化计算资源、内存使用和数据分布的平衡，实现确定最佳架构和设备放置策略的协同优化。
关键思路

论文的关键思路是利用张量和向量单元，确定它们的数量和维度，以及芯片内外存储器配置，同时确定微批量大小并决定是否重新计算或存储激活值，以平衡训练的内存占用和存储大小。然后，使用整数线性规划（ILP）为每个探索的架构配置找到在加速器上执行操作的最佳计划，并将ILP结果与动态规划解决方案相结合，以确定最有效的设备放置策略，跨多个加速器组合数据、流水线和张量模型并行。
其它亮点

论文的亮点包括：实现了硬件加速器架构和设备放置策略的协同优化；使用整数线性规划和动态规划相结合的方法，实现了最佳计划的确定；在多个加速器上实现了数据、流水线和张量模型并行；在大型语言模型上实现了比TPUv4和Spotlight加速器搜索框架更高的吞吐量。PHAZE的所有源代码都可以在https://github.com/msr-fiddle/phaze中找到。
相关研究

在这个领域中，还有一些相关的研究，例如：《Neural Architecture Search: A Survey》、《Efficient Processing of Deep Neural Networks: A Tutorial and Survey》、《Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问