Shape Happens: Automatic Feature Manifold Discovery in LLMs via Supervised Multi-Dimensional Scaling

向作者提问

NEW

简介

线性表示假说认为，语言模型（LMs）在其潜在空间中以方向的形式编码概念，并由此形成有组织的多维流形。以往的研究主要聚焦于为特定特征发现特定的几何结构，因而缺乏普适性。我们提出了监督式多维缩放法（SMDS），这是一种与模型无关的方法，可自动发现特征流形。我们将SMDS应用于时间推理作为案例研究，发现不同的特征形成了诸如圆形、直线和聚类等多种几何结构。SMDS揭示了这些结构的诸多深层洞见：它们一致地反映了所表示概念的属性；在不同模型家族和规模之间保持稳定；积极参与模型的推理过程；并能根据上下文变化动态调整其形态。综上所述，我们的研究结果阐明了特征流形的功能性作用，支持了一种基于实体的推理模型，即语言模型能够编码并转换结构化的表征。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图验证语言模型是否在潜在空间中以线性方向编码概念，并形成有组织的多维流形结构。尽管线性表示假设已被提出，但现有方法通常针对特定特征寻找特定几何结构，缺乏通用性。本文旨在自动发现这些特征流形，探究其在推理中的功能角色，特别是时间推理中的表现。这是一个重要且尚未充分解决的问题，尤其是在跨模型、跨上下文的稳定性与功能性方面。
关键思路

提出Supervised Multi-Dimensional Scaling (SMDS)，一种模型无关的方法，能够自动发现语言模型中特征的多维流形结构。与以往依赖人工定义或特定任务几何结构的方法不同，SMDS通过监督信号引导降维过程，从而揭示概念在嵌入空间中的内在几何形态（如圆形、直线、簇等），并验证这些结构如何支持推理过程。其创新在于将流形发现形式化为可监督学习的任务，实现了对多种特征结构的统一建模。
其它亮点

以时间推理为案例研究，SMDS成功识别出不同时间特征对应的几何结构（例如周期性事件呈圆形，顺序关系呈线性）。实验表明这些结构具有跨模型家族（如LLaMA、BERT）和尺寸的稳定性，在上下文变化时动态调整，且直接参与推理过程。实验涵盖多个主流语言模型，数据集包括时间标注文本（如TimeBank）和自构时间推理任务。代码已开源，推动可解释性研究。值得深入的方向包括将SMDS扩展到其他认知能力（如空间、因果推理）以及利用流形结构进行模型编辑或干预。
相关研究

1. Uncovering the Structure of Systematic Generalization in Transformers 2. Language Models as Knowledge Stores: On the Relevance of Prompting for Probing 3. Geometric Probing of Pretrained Language Models 4. Emergent Symbolic Reasoning in Large Language Models 5. Probing Representations of Linguistic Features in Transformer Encoders

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问