Memory Layers at Scale

2024年12月12日
  • 简介
    记忆层使用可训练的键值查找机制,在不增加浮点运算次数(FLOPs)的情况下为模型添加额外参数。从概念上讲,稀疏激活的记忆层补充了计算密集型的全连接前馈层,提供了专门的容量以较低的成本存储和检索信息。这项工作将记忆层的应用扩展到超越概念验证阶段,证明了其在现代规模下的实用性。在下游任务中,使用我们改进的记忆层增强的语言模型在计算预算超过两倍的情况下优于密集模型,并且在计算和参数匹配的情况下也超过了专家混合模型。我们发现这些改进在事实性任务中尤为显著。我们提供了一个完全并行化的记忆层实现,并展示了具有多达1280亿个记忆参数的记忆层的扩展规律,这些记忆层已经预训练了1万亿个令牌,与最多具有80亿参数的基础模型进行了比较。
  • 图表
  • 解决问题
    该论文试图解决如何在不增加浮点运算(FLOPs)的情况下,通过引入记忆层来增强语言模型的性能。这是一个具有挑战性的问题,尤其是在需要提高模型处理事实类任务的能力时。这并不是一个全新的问题,但将记忆层扩展到现代大规模模型中进行验证是新的尝试。
  • 关键思路
    关键思路是利用可训练的键值查找机制,通过稀疏激活的记忆层为模型添加额外参数。这种方法能够在不影响计算成本的前提下,提供额外的存储和检索信息的能力。与密集的前馈层相比,记忆层可以更高效地处理特定类型的任务,特别是在需要大量记忆或背景知识的事实类任务上。
  • 其它亮点
    该研究展示了记忆层在实际应用中的有效性,特别是对于事实类任务的表现优于计算预算两倍以上的密集模型以及参数和计算量匹配的专家混合模型。实验设计包括对多达1280亿个记忆参数的完全并行化实现,并进行了大规模预训练(达到1万亿个token)。此外,这项工作开源了代码,使得其他研究人员可以复现结果并进一步探索。
  • 相关研究
    最近在这个领域的一些相关研究包括: - 'Sparse Networks of Experts Scale Efficiently',探讨了稀疏网络结构的有效性。 - 'Mixture of Experts Can Scale to Giant Models',研究了专家混合模型在超大规模模型中的应用。 - 'Scalable and Sustainable Deep Learning via Randomized Hashing',提出了使用随机哈希技术来提升深度学习模型的可扩展性和可持续性。 这些研究都致力于提高模型效率和性能,而本文的记忆层方法提供了另一种有前景的方向。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论