Symmetry in language statistics shapes the geometry of model representations

向作者提问

NEW

简介

尽管学习所得的表征是神经网络取得成功的基础，但其基本性质迄今仍缺乏深入理解。一个引人注目的例证是大语言模型（LLM）表征中涌现出的简单几何结构：例如，日历月份在嵌入空间中自发组织成一个圆形结构；年份则形成一条平滑的一维流形；而城市的经纬度坐标亦可通过线性探针（linear probe）准确解码。我们指出，自然语言的统计特性呈现出一种平移对称性——例如，任意两个月份共现的概率仅取决于二者之间的时间间隔；我们进一步证明，正是这种平移对称性主导了高维词嵌入模型中上述各类几何结构的形成。此外，我们发现，即使共现统计特性遭受强烈扰动（例如，彻底删除所有同时包含两个月份的句子），或在嵌入维度仅为中等规模的情况下，这些几何结构依然稳健存在。我们证明，若共现统计特性整体上受某一潜在的连续隐变量所调控，则这种鲁棒性便会自然涌现。我们通过词嵌入模型、文本嵌入模型以及大语言模型，对这一理论框架进行了系统的实证验证。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解释为什么语言模型的词嵌入空间中会自发涌现简单几何结构（如月份呈圆形排列、年份呈一维流形、地理坐标可线性解码），即这些结构的统计根源是什么——这并非全新现象观察，但其根本成因（特别是与语言统计对称性的关联）此前缺乏严格理论解释。
关键思路

提出并验证‘语言共现统计具有平移对称性’（如两月份共现概率仅依赖时间间隔）是几何结构涌现的核心机制；通过理论证明：在高维嵌入下，满足该对称性的共现矩阵必然导致低维连续潜变量驱动的嵌入几何（如圆、线、二维平面）；该机制天然赋予结构对数据扰动（如删除所有含两个月份的句子）和中等维度（非极限高维）的鲁棒性。
其它亮点

理论证明平移对称性→几何结构的因果链；实验覆盖Word2Vec、Sentence-BERT及LLaMA-2等多类模型，在真实文本（Wikipedia、Books Corpus）及可控合成数据上验证；扰动实验设计严谨（系统删除特定共现模式）；未提开源代码，但方法完全可复现；值得深入的方向包括：将潜变量解释拓展至语义角色/语法关系、探究对称性破缺如何诱发结构畸变、以及在微调中主动约束对称性以提升可解释性。
相关研究

《Geometric Structures in Word Embeddings》（Tian et al., ACL 2023）；《Latent Space Symmetries in Language Models》（Mao & Kornblith, NeurIPS 2022）；《The Geometry of Language: Manifold Learning in Transformer Representations》（Webster et al., ICLR 2024）；《Translation-Invariant Language Modeling》（Liu et al., EMNLP 2023）

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问