- 简介标准transformer中的注意力机制的时间复杂度随序列长度呈二次方增长。我们提出了一种基于潜在向量定义注意力的方法,将时间复杂度降至线性级别。该方法可以直接替换标准注意力机制。我们的“Latte Transformer”模型可用于双向和单向任务,因果版本允许在语言生成任务的推理期间进行内存和时间高效的循环实现。虽然标准transformer的下一个标记预测随序列长度呈线性增长,但Latte Transformer需要常数时间来计算下一个标记。我们的方法的实证性能与标准注意力相当,但允许扩展到比标准注意力更大的上下文窗口。
- 图表
- 解决问题解决问题:论文试图解决transformer模型中注意力机制时间复杂度随序列长度平方增长的问题,提出一种基于潜变量的方法将时间复杂度降为线性增长。
- 关键思路关键思路:论文的关键思路是通过定义注意力机制的潜变量来降低时间复杂度,提出的Latte Transformer模型可以作为标准注意力机制的替代品,能够有效地解决序列长度增加导致的计算瓶颈问题。
- 其它亮点其他亮点:Latte Transformer模型可以应用于双向和单向任务,其中因果版本允许递归实现,在语言生成任务的推理过程中具有内存和时间效率。与标准注意力机制相比,Latte Transformer模型的实验性能相当,但允许扩展到比标准注意力机制更大的上下文窗口。
- 相关研究:最近在这个领域中,还有一些相关的研究,如Lin等人的“Efficient Transformers: A Survey”和Child等人的“Generating Long Sequences with Sparse Transformers”等。
沙发等你来抢
去评论
评论
沙发等你来抢