Convergent Evolution: How Different Language Models Learn Similar Number Representations

向作者提问

NEW

简介

在自然文本上训练的语言模型，会学习到以周期 $T=2, 5, 10$ 为主导的周期性数字表征。本文揭示了这类周期性特征存在一个“双层级”结构：一方面，Transformer、线性循环神经网络（Linear RNN）、长短期记忆网络（LSTM）以及以不同方式训练的经典词嵌入，均会习得在傅里叶域中呈现周期为 $T$ 的尖峰响应的特征；但另一方面，仅有部分模型能进一步习得“几何可分”的特征——即能够通过线性分类器直接判别一个数对 $T$ 取模的结果。为解释这一不一致性现象，我们严格证明：傅里叶域中的稀疏性是实现模 $T$ 几何可分性的必要条件，但并非充分条件。在实证层面，我们系统探究了模型训练过程中几何可分特征的产生机制，发现数据分布、模型架构、优化器选择以及分词器（tokenizer）设计均起着关键作用。特别地，我们识别出模型获取几何可分特征的两条不同路径：其一，模型可从通用语言数据中蕴含的互补共现信号中习得此类特征，包括文本与数字之间的共现关系，以及不同数字之间的交互模式；其二，模型亦可通过多词元（而非单词元）形式的加法运算任务习得该类特征。总体而言，我们的研究结果凸显了表征学习中“趋同演化”这一重要现象：尽管模型类型多样、训练信号各异，它们却独立演化出高度相似的数字表征结构。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决语言模型如何从自然文本中学习数字的模运算（mod-T）表征这一根本性问题：为何不同架构（Transformer、LSTM、Linear RNN等）均在傅里叶域展现出周期T=2,5,10的特征尖峰，但仅部分模型能线性分离模T类别？这揭示了‘频域稀疏性’与‘几何可分性’之间的关键断层，挑战了‘频域周期性即蕴含算术能力’的隐含假设。该问题新颖且基础——首次系统解耦数字表征的频域特性与下游线性可分性的因果关系。
关键思路

提出‘两层级特征层次’理论：第一层（普遍性）是傅里叶域周期尖峰（由数据统计驱动，广泛出现）；第二层（特异性）是几何可分的模T嵌入（需特定训练信号激活）。核心新意在于严格证明‘傅里叶稀疏性是模T几何可分性的必要但不充分条件’，并实证识别出两条独立涌现路径——（1）自然语言中的文本-数字共现与跨数字交互信号，（2）多token加法任务（非单token），二者均可绕过显式算术监督诱导可分结构。
其它亮点

实验设计严谨：横跨4类架构（Transformer/LSTM/Linear RNN/word2vec）、3种优化器（Adam/SGD/Adagrad）、5种分词策略（字节对/WordPiece/数字拆分/整数token/子词），在WikiText、BookCorpus及自建数字推理数据集上验证；关键发现——tokenizer影响最大（整数级tokenization显著提升可分性），且多token加法任务比单token更有效；论文未开源代码但提供完整复现实验细节；值得深入的方向：（1）共现信号的量化建模（如互信息驱动的token配对分析），（2）将几何可分性作为预训练目标的新型损失函数设计。
相关研究

‘Language Models as Zero-Shot Calculators’ (ICLR 2023); ‘Neural Networks Learn Arithmetic Through Composition’ (NeurIPS 2022); ‘The Inductive Bias of Language Models for Number Representation’ (ACL 2023); ‘Fourier Features in Neural Networks: Theory and Practice’ (ICML 2021); ‘What Does BERT Learn About Numbers?’ (EMNLP 2020)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问