Language Models Need Inductive Biases to Count Inductively

2024年05月30日
  • 简介
    计数是归纳的基本例子,无论是从定义自然数的Peano公理的数学角度,还是从儿童学习计数的认知科学文献的角度来看。对于这两种情况,都可以得出结论,学习计数意味着学习无限计数。虽然很少有论文试图将变压器“推理”简化为最简单的计数情况,但研究长度归纳在整个文献中确实存在。在NLP的“训练短,测试长”的范式中,长度指的是训练句子的长度。在形式语言识别中,长度指的是输入序列的长度或由下推自动机引起的最大堆栈大小。在一般问题解决中,长度指的是演绎推理链中的跳数或递归深度。对于所有情况,计数都是任务成功的关键。而且,归纳地推广计数对于在OOD实例上成功非常关键。本研究在训练语言模型进行计数方面提供了广泛的实证结果。我们尝试了从RNN、Transformer、状态空间模型到RWKV的各种架构。我们提出了精心设计的任务格式、辅助任务和位置嵌入,以避免在OOD位置和OOD词汇的泛化限制。我们发现,虽然传统的RNN轻松实现归纳计数,但Transformer必须依赖位置嵌入来计数跨领域的数据。由于计数是涉及Transformer表达能力的许多论点的基础,我们的发现呼吁社区重新审视形式化特征定义的原始函数的应用范围。最后,现代RNN在归纳计数方面也大多不如传统RNN。我们讨论了现代RNN的设计选择如何使其失去了循环性质的优点。
  • 图表
  • 解决问题
    论文旨在研究语言模型在数数方面的泛化能力,特别是在处理数据集中的长度变化和未知单词时的能力。研究试图验证Transformers在数数方面的表现是否比传统的RNN更好。
  • 关键思路
    论文通过实验发现,相比于传统的RNN,Transformers需要依靠位置嵌入才能在处理长度变化和未知单词的情况下进行数数。这一发现呼吁研究人员重新审视Transformers所定义的原始函数的适用范围。
  • 其它亮点
    论文采用了多种架构和任务格式,包括RNN、Transformers、状态空间模型和RWKV。研究还提出了一些辅助任务和位置嵌入,以避免在处理长度变化和未知单词时的泛化能力受限。实验使用了多个数据集,并公开了代码。论文指出,现代RNN在数数方面的泛化能力较传统RNN差,这是由于现代RNN的设计选择导致它们失去了递归性质的优点。
  • 相关研究
    在最近的相关研究中,一些论文探讨了语言模型在处理长度变化和未知单词时的泛化能力。例如,Bao等人的“Length Generalization in Language Models”和Khandelwal等人的“Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论