Initialization is Critical to Whether Transformers Fit Composite Functions by Inference or Memorizing

简介

变形金刚已经在各种任务中展示了令人印象深刻的能力，但它们在组合问题上的表现仍然存在争议。在这项工作中，我们使用锚函数研究了变形金刚在未见过的组合任务上的行为机制。我们发现参数初始化规模在决定模型是否学习推理解（捕捉底层组合原语）或对称解（仅仅记忆映射而不理解组合结构）方面起着关键作用。通过分析模型内部的信息流和向量表示，我们揭示了支持这些解类型的不同机制。我们进一步发现，推理解表现出低复杂度偏差，我们假设这是使它们能够学习单个锚点的个体映射的关键因素。基于我们对这些机制的理解，我们可以预测不同初始化规模的模型在面对不同推理复杂度的数据时的学习行为。我们的发现为初始化规模在塑造变形金刚学习和推广组合函数的解类型和能力方面的作用提供了宝贵的见解。
图表
解决问题

论文试图研究transformers在组合问题上的表现，并探讨初始参数对模型学习复合函数的影响。
关键思路

初始参数的规模对transformers学习复合函数的推理解决方案和对称解决方案产生影响。
其它亮点

论文通过分析信息流和向量表示，揭示了推理解决方案和对称解决方案的不同机制，并发现推理解决方案具有低复杂度偏差。研究者可以根据初始参数的规模预测模型在面对不同推理复杂度数据时的学习行为。
相关研究

在相关研究中，有一些研究探讨了transformers在组合问题上的表现，如《Attention is All you Need》、《Compositional Attention Networks for Machine Reasoning》等。

Initialization is Critical to Whether Transformers Fit Composite Functions by Inference or Memorizing

评论