- 简介随着深度学习模型的指数级增长,像Adam这样的优化器由于存储第一和第二时刻数据而遇到了显著的内存消耗挑战。目前的内存高效方法如Adafactor和CAME通常通过矩阵分解技术来牺牲精度。为了解决这个问题,我们引入了Adapprox,一种新颖的方法,它采用随机低秩矩阵逼近来更有效、更准确地逼近Adam的第二时刻。Adapprox具有自适应秩选择机制,可以精细地平衡精度和内存效率,并包括一个可选的余弦相似性指导策略,以增强稳定性并加快收敛速度。在GPT-2训练和下游任务中,Adapprox相对于AdamW实现了34.5%至49.9%和33.8%至49.9%的内存节省,对于117M和345M模型启用第一时刻,并在没有第一时刻的情况下进一步增加了这些节省。此外,相对于其竞争对手,它还提高了收敛速度和改进了下游任务的性能。
-
- 图表
- 解决问题Adapprox试图解决Adam优化器在存储一、二阶矩数据时的内存消耗问题,同时保持优化精度。
- 关键思路Adapprox采用随机低秩矩阵逼近Adam的二阶矩,具有自适应秩选择机制和余弦相似度指导策略,以平衡精度和内存效率,并提高收敛速度和下游任务性能。
- 其它亮点Adapprox在GPT-2训练和下游任务中,相对于AdamW实现了34.5%至49.9%的内存节省,并进一步提高了收敛速度和下游任务性能。论文提供了实验细节和开源代码。
- 与Adafactor和CAME等内存效率方法相比,Adapprox具有更高的精度和更好的内存效率。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流