The Origins of Representation Manifolds in Large Language Models

2025年05月23日
  • 简介
    在机制可解释性的研究中,科学界正在付出大量努力,将人工智能系统的嵌入和内部表示映射为人类可理解的概念。这一努力中的一个关键要素是线性表示假设,该假设认为神经网络的表示可以被视作“近似正交”方向向量的稀疏线性组合,反映不同特征的存在或缺失。这一模型支持了使用稀疏自编码器从表示中恢复特征的方法。朝着更完整的特征模型迈进,其中神经表示不仅可以编码特征的存在与否,还可以编码特征的潜在连续且多维的值,这已成为近期讨论的热点话题。我们解释了一个特征为何以及如何可以被表示为一个流形,并特别展示了表示空间中的余弦相似度可能通过流形上的最短路径编码特征的内在几何结构,从而潜在地回答了表示空间中的距离与概念空间中的相关性如何关联的问题。该理论的关键假设和预测已在文本嵌入和大型语言模型的标记激活上得到了验证。
  • 图表
  • 解决问题
    论文试图解决神经网络内部表示如何映射到人类可理解的概念的问题,特别是探讨特征在表示空间中的编码方式是否可以超越简单的线性组合,从而捕捉连续和多维的特征值。这是一个重要但尚未完全解决的问题,尤其是在理解AI模型决策机制方面。
  • 关键思路
    论文提出了一种新的理论框架,假设神经网络中的特征可以通过流形(manifold)来表示,并且通过余弦相似度反映特征内在几何结构的最短路径。这一思路扩展了线性表示假说,允许更复杂的特征编码方式,为理解表示空间与概念空间的关系提供了新视角。
  • 其它亮点
    论文验证了关键假设,即余弦相似度能够反映特征的内在几何结构,并在文本嵌入和大语言模型的token激活中进行了实验验证。实验设计包括分析表示空间的距离与概念相关性的关系。虽然未提及具体数据集或开源代码,但该研究为进一步探索特征流形表示提供了方向,例如结合拓扑数据分析或生成模型的研究。
  • 相关研究
    近期相关研究包括:1) 'The Emergence of Closed-Form Solutions for Feature Geometry in Neural Networks' 探讨特征几何的解析解;2) 'Probing the Geometry of Representations in Transformers' 研究Transformer表示的空间几何;3) 'Sparse Autoencoders for Interpretable Feature Recovery' 提出使用稀疏自编码器恢复特征。这些工作共同推动了对神经网络内部表示的理解。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论