- 简介深度学习架构的开发是一个资源密集型的过程,由于设计空间广阔,原型制作时间长,以及与规模模型训练和评估相关的高计算成本。我们旨在通过一个端到端的机械化架构设计(MAD)流程来简化这个过程,该流程包括预测可扩展定律的小规模能力单元测试。通过一系列合成的代币操作任务,例如压缩和回忆,旨在探索能力,我们确定并测试了由各种计算原语构建的新混合架构。我们通过广泛的计算优化和新的状态优化缩放定律分析验证了所得到的架构,训练了超过500个参数在70M到7B之间的语言模型。令人惊讶的是,我们发现MAD合成与计算优化的困惑度相关,可以通过孤立的代理任务准确评估新架构。通过MAD发现的新架构,基于诸如混合和稀疏性等简单思想,在计算优化预算和过度训练的情况下,优于最先进的Transformer,卷积和循环架构(Transformer ++,Hyena,Mamba)的扩展。总的来说,这些结果表明,对精心策划的合成任务的表现可以预测扩展定律,并且最佳架构应该通过混合拓扑利用专门的层。
- 图表
- 解决问题简化深度学习架构设计流程,提高模型性能和训练效率。
- 关键思路通过机械化架构设计流程(MAD)管道,利用一系列合成任务来测试新的混合架构,发现基于混合化和稀疏化的新型架构可以在计算优化和状态优化方面超越当前最先进的Transformer、卷积和循环架构。
- 其它亮点论文通过MAD管道设计了一系列合成任务来测试新的混合架构,发现这些任务的表现可以预测模型的性能。同时,论文提出的新型混合架构在计算优化和状态优化方面都表现优异。实验中使用了超过500个语言模型,训练参数从70M到7B不等。
- 近期的相关研究包括《Attention is All You Need》、《Transformer-XL》、《Reformer》等。
沙发等你来抢
去评论
评论
沙发等你来抢