- 简介这篇简短的笔记旨在快速传达长序列训练的内容,并分享如何使用低内存训练的想法。在笔记中,我们将生成式预训练转换器的注意力算法和神经网络概括,并在路径积分形式主义中重新解释它们。首先,将转换器的作用理解为标记状态的时间演变,其次,建议在同一时间的所有关键标记状态都可以与查询标记状态一起参与注意力。由于重复的时间演变,讨论了过去序列中的标记状态与当前序列中的标记状态相遇,从而使得保持无限上下文信息的序列之间的注意力成为可能,仅使用有限大小的序列低内存。在实验中,采用了12个输入标记窗口大小,并使用一块24GB内存的GPU进行预训练。确认保留了超过150个长度的上下文。训练的采样结果、代码和其他细节将在此笔记的修订版本中包含。
-
- 图表
- 解决问题如何在低内存使用的情况下进行长文本上下文训练?
- 关键思路通过将生成式预训练变换器的注意力算法和神经网络重新解释为路径积分形式,将变换器的作用理解为令牌状态的时间演化,并建议所有与查询令牌状态在同一时间的键-令牌状态都可以参与到查询令牌状态的注意力中,以维护无限上下文信息。通过重复的时间演化,过去序列中的令牌状态与当前序列中的令牌状态相遇,从而可以在使用有限序列的低内存情况下维护分离序列之间的注意力,以保持无限的上下文信息。
- 其它亮点实验使用12个输入令牌窗口大小和一块24GB内存的GPU进行预训练,确认保留了超过150个长度的上下文信息。作者将在修订版本的论文中包括训练的采样结果、代码和其他细节。
- 最近的相关研究包括使用Transformer进行自然语言处理的许多研究,例如“Attention Is All You Need”和“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”。


提问交流