Convergent Evolution: How Different Language Models Learn Similar Number Representations

2026年04月22日
  • 简介
    在自然文本上训练的语言模型,会学习到以周期 $T=2, 5, 10$ 为主导的周期性数字表征。本文揭示了这类周期性特征存在一个“双层级”结构:一方面,Transformer、线性循环神经网络(Linear RNN)、长短期记忆网络(LSTM)以及以不同方式训练的经典词嵌入,均会习得在傅里叶域中呈现周期为 $T$ 的尖峰响应的特征;但另一方面,仅有部分模型能进一步习得“几何可分”的特征——即能够通过线性分类器直接判别一个数对 $T$ 取模的结果。为解释这一不一致性现象,我们严格证明:傅里叶域中的稀疏性是实现模 $T$ 几何可分性的必要条件,但并非充分条件。在实证层面,我们系统探究了模型训练过程中几何可分特征的产生机制,发现数据分布、模型架构、优化器选择以及分词器(tokenizer)设计均起着关键作用。特别地,我们识别出模型获取几何可分特征的两条不同路径:其一,模型可从通用语言数据中蕴含的互补共现信号中习得此类特征,包括文本与数字之间的共现关系,以及不同数字之间的交互模式;其二,模型亦可通过多词元(而非单词元)形式的加法运算任务习得该类特征。总体而言,我们的研究结果凸显了表征学习中“趋同演化”这一重要现象:尽管模型类型多样、训练信号各异,它们却独立演化出高度相似的数字表征结构。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决语言模型如何从自然文本中学习数字的模运算(mod-T)表征这一根本性问题:为何不同架构(Transformer、LSTM、Linear RNN等)均在傅里叶域展现出周期T=2,5,10的特征尖峰,但仅部分模型能线性分离模T类别?这揭示了‘频域稀疏性’与‘几何可分性’之间的关键断层,挑战了‘频域周期性即蕴含算术能力’的隐含假设。该问题新颖且基础——首次系统解耦数字表征的频域特性与下游线性可分性的因果关系。
  • 关键思路
    提出‘两层级特征层次’理论:第一层(普遍性)是傅里叶域周期尖峰(由数据统计驱动,广泛出现);第二层(特异性)是几何可分的模T嵌入(需特定训练信号激活)。核心新意在于严格证明‘傅里叶稀疏性是模T几何可分性的必要但不充分条件’,并实证识别出两条独立涌现路径——(1)自然语言中的文本-数字共现与跨数字交互信号,(2)多token加法任务(非单token),二者均可绕过显式算术监督诱导可分结构。
  • 其它亮点
    实验设计严谨:横跨4类架构(Transformer/LSTM/Linear RNN/word2vec)、3种优化器(Adam/SGD/Adagrad)、5种分词策略(字节对/WordPiece/数字拆分/整数token/子词),在WikiText、BookCorpus及自建数字推理数据集上验证;关键发现——tokenizer影响最大(整数级tokenization显著提升可分性),且多token加法任务比单token更有效;论文未开源代码但提供完整复现实验细节;值得深入的方向:(1)共现信号的量化建模(如互信息驱动的token配对分析),(2)将几何可分性作为预训练目标的新型损失函数设计。
  • 相关研究
    ‘Language Models as Zero-Shot Calculators’ (ICLR 2023); ‘Neural Networks Learn Arithmetic Through Composition’ (NeurIPS 2022); ‘The Inductive Bias of Language Models for Number Representation’ (ACL 2023); ‘Fourier Features in Neural Networks: Theory and Practice’ (ICML 2021); ‘What Does BERT Learn About Numbers?’ (EMNLP 2020)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问