Deep sequence models tend to memorize geometrically; it is unclear why

2025年10月30日
  • 简介
    在序列建模中,原子事实的参数化记忆主要被抽象为实体之间共现关系的暴力查找。我们将这种关联性的视角与记忆存储的几何化视角进行对比。我们首先识别出一个清晰且可分析的Transformer推理实例,该实例无法用训练期间指定的局部共现关系的简单存储来解释。相反,模型必然以某种方式合成了自身关于原子事实的几何结构,编码了所有实体之间的全局关系,包括那些从未共同出现过的实体。这一过程进而将一个涉及ℓ重复合的复杂推理任务,简化为一个易于学习的单步几何操作。 从这一现象出发,我们提炼出神经嵌入几何中一些难以解释的基本特征。我们认为,尽管优化过程仅基于局部关联,但如此优雅的几何结构的出现,并不能简单归因于典型的架构设计或优化压力。反直觉的是,即使这种几何表示并不比直接查找关联更为简洁,它依然会被学习出来。 接着,通过分析其与Node2Vec的联系,我们揭示了这种几何结构源于一种谱偏差(spectral bias)——与主流理论相反,这种偏差即便在缺乏各种外部压力的情况下,也能自然产生。这一分析还向实践者指明了一个明显的改进空间:可以进一步增强Transformer记忆的几何特性。我们希望这种关于参数化记忆的几何化视角,能够促使研究者重新审视知识获取、模型容量、知识发现与遗忘等领域的默认直觉假设。
  • 作者讲解
  • 图表
  • 解决问题
    论文探讨了序列建模中参数化记忆如何存储原子事实的问题,挑战了主流将记忆视为实体间共现关系的暴力查找机制的观点。作者试图验证一个假设:Transformer 模型在训练过程中并未仅依赖局部共现信息,而是自发构建了一种蕴含全局关系的几何结构来表示知识。这个问题在神经网络可解释性和知识表示领域具有新颖性,尤其对理解模型如何进行复杂推理提出了新的视角。
  • 关键思路
    论文提出‘记忆的几何观’,即 Transformer 并非简单存储训练时的局部共现事实,而是通过隐式学习实体之间的全局几何结构来实现推理。这种几何结构使得原本需要多步复合推理的任务(ℓ-fold composition)被简化为单步的几何操作(如向量平移或旋转)。这一思路突破了传统‘关联记忆’的认知,揭示了模型可能通过内在嵌入空间的组织方式实现抽象推理,即使优化目标仅基于局部统计。
  • 其它亮点
    作者设计了一个干净且可分析的 Transformer 推理实例,证明其行为无法用共现记忆解释;通过类比 Node2Vec 的谱偏差(spectral bias)机制,说明几何结构的出现是优化过程中的自然产物,而非由显式结构约束驱动;实验虽未明确列出数据集,但理论分析深入,并指出可通过调整训练动态增强 Transformer 的几何记忆能力;代码是否开源未提及,但该发现为未来改进模型的记忆机制提供了新方向,值得进一步探索几何归纳偏置的设计。
  • 相关研究
    1. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2. Language Models are Few-Shot Learners (GPT-3) 3. Knowledge Graph Embeddings Take the Riemannian Route to Negative Curvature 4. Word2Vec, Node2Vec, and the Geometry of Skip-gram Models 5. In-context Learning and Induction Heads in Transformer Models 6. Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问