Why Can't Transformers Learn Multiplication? Reverse-Engineering Reveals Long-Range Dependency Pitfalls

简介

语言模型的能力日益增强，但在多位数乘法这一看似简单的任务上仍然表现不佳。在本研究中，我们通过逆向工程一个通过隐式思维链成功学会乘法的模型来探究其原因，并报告了三项发现：（1）长距离结构的证据：通过对对数几率归因分析和线性探测表明，该模型编码了实现多位数乘法所必需的长距离依赖关系。（2）机制：模型利用注意力机制构建有向无环图，通过“缓存”和“检索”成对的部分积来编码长距离依赖。（3）几何结构：模型的注意力头通过在数字对之间形成闵可夫斯基和来实现部分积，同时使用傅里叶基来表示数字；这两种表示方式都直观且高效，而标准微调模型却缺乏此类机制。基于这些发现，我们重新审视了标准微调的学习动态过程，发现模型收敛到了一个缺乏必要长距离依赖关系的局部最优解。为进一步验证这一理解，我们引入了一种辅助损失函数，通过线性回归探针预测“累加和”，从而提供一种归纳偏置，使模型能够成功学会多位数乘法。总之，通过对隐式思维链模型机制的逆向工程，我们揭示了Transformer模型在学习长距离依赖方面存在的一种缺陷，并提供了一个实例，说明正确的归纳偏置如何解决这一问题。
图表
解决问题

语言模型在多数字乘法这类需要长距离依赖的任务上表现不佳，尽管该任务看似简单。论文探究了为什么标准微调的Transformer模型难以学习此类任务，并验证了是否可以通过引入适当的归纳偏置来解决这一问题。这是一个重要且被忽视的问题，尤其是在研究模型推理能力的背景下。
关键思路

通过逆向工程一个成功学会乘法的隐式思维链（implicit chain-of-thought）模型，发现其通过注意力机制构建有向无环图来缓存和检索成对的部分积，从而建立长距离依赖。关键创新在于识别出模型使用Minkowski和与傅里叶基表示数字，并提出通过在线性探针上添加‘运行和’的辅助损失来提供正确的归纳偏置，使标准模型也能成功学习。
其它亮点

研究结合logit归因和线性探针揭示了模型内部机制；使用几何视角解释部分积的实现方式；实验设计清晰，在合成数据上验证机制；虽未明确提及开源代码，但方法可复现性强；值得深入研究如何将此类归纳偏置推广到其他算术或符号推理任务中。
相关研究

1. Large Language Models as Optimizers 2. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 3. Emergent Abilities of Large Language Models 4. Can Neural Networks Do Math? 5. Measuring Mathematical Problem Solving Ability in Language Models

许愿开讲

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论