Transformers represent belief state geometry in their residual stream

简介

我们在对大型语言模型进行下一个标记预测训练时，正在构建什么样的计算结构？在这里，我们提出证据表明，这种结构是由数据生成过程的隐藏状态上的信念更新的元动力学所确定的。利用最优预测理论，我们预计并发现，即使在预测的信念状态几何形态具有高度非平凡的分形结构的情况下，信念状态也可以在transformer的剩余流中进行线性表示。我们研究了信念状态几何形态在最终剩余流或分布在多个层的剩余流中表示的情况，提供了一个框架来解释这些观察结果。此外，我们证明了推断出的信念状态包含有关整个未来的信息，超出了transformer明确训练的局部下一个标记预测。我们的工作提供了一个框架，将训练数据的结构与transformer用于执行其行为的计算结构和表示相连接。
图表
解决问题

论文旨在探讨在训练下一令牌预测的大型语言模型时，我们正在构建什么计算结构？
关键思路

论文发现，这种结构是由数据生成过程的隐藏状态上的信念更新的元动态所给出的。通过利用最优预测理论，我们预计并发现信念状态在transformer的剩余流中被线性表示，即使在预测的信念状态几何结构具有高度非平凡的分形结构的情况下也是如此。
其它亮点

论文提供了一个框架，将训练数据的结构与transformers执行其行为所使用的计算结构和表示相连接。论文证明了推断出的信念状态包含有关整个未来的信息，超出了transformers明确训练的局部下一令牌预测。
相关研究

最近在这个领域中，还有一些相关的研究，如《Attention Is All You Need》和《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。

Transformers represent belief state geometry in their residual stream

评论