Arrows of Time for Large Language Models

简介

我们从时间方向性的角度研究了自回归大语言模型所进行的概率建模。我们在实践中发现这样的模型在模拟自然语言时表现出了时间上的不对称性：在尝试预测下一个标记和尝试预测上一个标记时，平均对数困惑度存在差异。这种差异既微妙又非常一致，跨越了各种模态（语言、模型大小、训练时间等）。理论上，这是令人惊讶的：从信息论的角度来看，不应该存在这样的差异。我们提供了一个理论框架来解释这种不对称性是如何从稀疏性和计算复杂性考虑中出现的，并概述了我们的结果所开启的一些视角。
图表
解决问题

论文研究Autoregressive Large Language Models在时间方向性上的概率建模，发现这些模型在模拟自然语言时存在时间上的不对称性，即在预测下一个令牌和预测前一个令牌时的平均对数困惑度存在差异。研究试图解释这种差异的出现原因。
关键思路

论文提供了一个理论框架，通过稀疏性和计算复杂性考虑，解释了这种时间上的不对称性是如何出现的。
其它亮点

论文通过实验验证了Autoregressive Large Language Models在时间上的不对称性，并提出了一个新的理论框架来解释这种现象。实验使用了不同模态（语言、模型大小、训练时间等）的数据集，并且提供了开源代码。论文的结论对于自然语言处理领域有一定的启示意义。
相关研究

最近在这个领域中，还有一些相关的研究，如《Attention is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。

Arrows of Time for Large Language Models

评论