追求任务通用模型是基础模型研究领域的核心目标之一,也是深度学习研究通向高级智能的必经之路。

近年来,得益于注意力机制(Attention Mechanism)的通用关系建模能力,Transformer在众多领域已经展现出了优秀的效果,并且逐步呈现出通用模型的态势。但是,其核心组件注意力机制随着输入序列的增长呈现二次复杂度,严重阻碍了Transformer在长序列处理上的应用,同时也限制了其扩展至大模型(Big Model)的能力。

为解决上述困难,受到网络流理论(Flow network theory)启发,本文提出了Flowformer模型,具有以下特点:

  • 线性复杂度,可以处理数千长度的输入序列;
  • 没有引入新的归纳偏好,保持了原有注意力机制的通用建模能力;
  • 任务通用,在长序列、视觉、自然语言、时间序列、强化学习五大任务上取得优秀效果。

作者:吴海旭,吴佳龙,徐介晖,王建民,龙明盛

链接:https://arxiv.org/pdf/2202.06258.pdf

代码:https://github.com/thuml/Flowformer

内容中包含的图片若涉及版权问题,请及时与我们联系删除