- 简介标准transformer中的注意力机制的时间复杂度随序列长度呈二次扩展。我们引入了一种基于潜在向量定义注意力的方法,将其缩减为线性时间扩展。该方法可以轻松地作为标准注意力机制的替代品。我们的“Latte Transformer”模型可用于双向和单向任务,因果版本允许在语言生成任务的推理期间实现记忆和时间效率的循环实现。虽然标准transformer的下一个标记预测随序列长度呈线性扩展,但Latte Transformer需要恒定时间来计算下一个标记。我们的方法的实证性能可与标准注意力相媲美,但允许扩展到比标准注意力实际上更大的上下文窗口。
- 图表
- 解决问题解决问题:论文试图解决transformer中标准的attention机制在序列长度上呈现二次方级别的时间复杂度问题,提出一种基于潜在向量的attention机制,使时间复杂度降为线性级别。
- 关键思路关键思路:论文提出一种基于潜在向量的attention机制,将原本二次方级别的时间复杂度降为线性级别,可以作为标准attention机制的替代方案,且适用于双向和单向任务。
- 其它亮点其他亮点:论文提出的Latte Transformer模型在语言生成任务中具有循环实现、内存和时间高效等优点,且对于下一个token的预测时间复杂度为常数级别;实验表明,该方法的性能与标准attention机制相当,同时可以扩展到比标准attention更大的上下文窗口。
- 相关研究:目前在该领域中,还有一些相关研究,如《Attention Is All You Need》、《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》等。
沙发等你来抢
去评论
评论
沙发等你来抢