Nested Learning: The Illusion of Deep Learning Architectures

2025年12月31日
  • 简介
    尽管近年来在语言模型的发展上取得了显著进展,但关于这些模型如何实现持续学习与记忆、自我改进以及寻找有效解决方案等方面,仍存在一些根本性的挑战和未解的问题。本文提出了一种新的学习范式——嵌套学习(Nested Learning, NL),它将机器学习模型统一地表示为一组具有各自上下文流的嵌套式、多层次或并行的优化问题。从NL的视角来看,现有的深度学习方法是通过对自身上下文流进行压缩来实现从数据中学习,而上下文学习(in-context learning)则在大模型中自然涌现。NL提供了一种设计理念:通过构建更多层次的学习算法,实现更高阶的上下文学习,从而有望解锁有效的持续学习能力。 我们通过三个核心贡献来论证NL的价值:(1)表达力更强的优化器:我们指出,目前已知的基于梯度的优化器(如Adam、带动量的SGD等)本质上是关联记忆模块,其目标是通过梯度下降过程对梯度信息进行压缩。基于这一洞见,我们提出了具有更深记忆结构或更强大学习规则的、表达能力更强的新优化器;(2)可自我修改的学习模块:利用NL对学习算法的深刻理解,我们设计了一种序列模型,能够通过学习自身的更新算法来实现对自身的修改;(3)连续记忆系统:我们提出一种全新的记忆系统框架,突破了传统长短时记忆的二分法观点。将我们的自修改序列模型与连续记忆系统相结合,我们构建了一个名为Hope的持续学习模块,在语言建模、知识融合、少样本泛化、持续学习以及长上下文推理等任务中均展现出良好的性能。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决当前语言模型在持续学习、自我改进和有效记忆机制方面的根本性挑战。尽管大型语言模型取得了进展,但它们在如何持续吸收新知识、长期记忆保持以及通过上下文自我优化方面仍存在局限。这虽然是一个长期存在的问题,但随着模型规模扩大和应用需求提升,其重要性日益凸显。
  • 关键思路
    提出一种名为嵌套学习(Nested Learning, NL)的新学习范式,将机器学习模型表示为一组具有多层级、并行结构和独立上下文流的嵌套优化问题。NL认为现有深度学习方法本质上是在压缩自身的上下文流,而大模型中的上下文学习是这一过程的自然涌现。基于此,论文设计了更具表达能力的优化器、可自我修改的学习模块和连续记忆系统,以实现更高阶的上下文学习与真正的持续学习能力。
  • 其它亮点
    1. 提出‘表达性优化器’概念,揭示Adam、SGD with Momentum等传统优化器本质是梯度信息的关联记忆模块,并构建了具有深层记忆和更强学习规则的新型优化器;2. 设计了一个能学习自身更新算法的自修改序列模型;3. 提出‘连续记忆系统’,超越传统的长短时记忆二分法;4. 构建了名为Hope的持续学习模块,在语言建模、知识整合、少样本泛化、持续学习和长上下文推理任务中展现 promising 结果;5. 实验涵盖多个标准基准,虽未明确提及开源代码,但结果显示出该框架的广泛适用性和潜力;值得深入研究方向包括:NL在不同架构中的扩展、自修改机制的稳定性、以及Hope在真实场景下的部署能力。
  • 相关研究
    1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 2. In-Context Learning and Induction Heads in Transformer Models 3. Memory Networks 4. Neural Turing Machines 5. Learning to Learn by Gradient Descent by Gradient Descent 6. Meta-Learning with Latent Embedding Optimization 7. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 8. State-Space Models as Deep Neural Networks
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问