Deep sequence models tend to memorize geometrically; it is unclear why

向作者提问

NEW

简介

在序列建模中，原子事实的参数化记忆主要被抽象为实体之间共现关系的暴力查找。我们将这种关联性的视角与记忆存储的几何化视角进行对比。我们首先识别出一个清晰且可分析的Transformer推理实例，该实例无法用训练期间指定的局部共现关系的简单存储来解释。相反，模型必然以某种方式合成了自身关于原子事实的几何结构，编码了所有实体之间的全局关系，包括那些从未共同出现过的实体。这一过程进而将一个涉及ℓ重复合的复杂推理任务，简化为一个易于学习的单步几何操作。从这一现象出发，我们提炼出神经嵌入几何中一些难以解释的基本特征。我们认为，尽管优化过程仅基于局部关联，但如此优雅的几何结构的出现，并不能简单归因于典型的架构设计或优化压力。反直觉的是，即使这种几何表示并不比直接查找关联更为简洁，它依然会被学习出来。接着，通过分析其与Node2Vec的联系，我们揭示了这种几何结构源于一种谱偏差（spectral bias）——与主流理论相反，这种偏差即便在缺乏各种外部压力的情况下，也能自然产生。这一分析还向实践者指明了一个明显的改进空间：可以进一步增强Transformer记忆的几何特性。我们希望这种关于参数化记忆的几何化视角，能够促使研究者重新审视知识获取、模型容量、知识发现与遗忘等领域的默认直觉假设。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文探讨了序列建模中参数化记忆如何存储原子事实的问题，挑战了主流将记忆视为实体间共现关系的暴力查找机制的观点。作者试图验证一个假设：Transformer 模型在训练过程中并未仅依赖局部共现信息，而是自发构建了一种蕴含全局关系的几何结构来表示知识。这个问题在神经网络可解释性和知识表示领域具有新颖性，尤其对理解模型如何进行复杂推理提出了新的视角。
关键思路

论文提出‘记忆的几何观’，即 Transformer 并非简单存储训练时的局部共现事实，而是通过隐式学习实体之间的全局几何结构来实现推理。这种几何结构使得原本需要多步复合推理的任务（ℓ-fold composition）被简化为单步的几何操作（如向量平移或旋转）。这一思路突破了传统‘关联记忆’的认知，揭示了模型可能通过内在嵌入空间的组织方式实现抽象推理，即使优化目标仅基于局部统计。
其它亮点

作者设计了一个干净且可分析的 Transformer 推理实例，证明其行为无法用共现记忆解释；通过类比 Node2Vec 的谱偏差（spectral bias）机制，说明几何结构的出现是优化过程中的自然产物，而非由显式结构约束驱动；实验虽未明确列出数据集，但理论分析深入，并指出可通过调整训练动态增强 Transformer 的几何记忆能力；代码是否开源未提及，但该发现为未来改进模型的记忆机制提供了新方向，值得进一步探索几何归纳偏置的设计。
相关研究

1. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 2. Language Models are Few-Shot Learners (GPT-3) 3. Knowledge Graph Embeddings Take the Riemannian Route to Negative Curvature 4. Word2Vec, Node2Vec, and the Geometry of Skip-gram Models 5. In-context Learning and Induction Heads in Transformer Models 6. Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问