- 简介我们提出了GrootVL网络,它首先基于空间关系和输入特征动态生成树形拓扑结构。然后,基于该图执行特征传播,从而打破原始序列的约束,实现更强的表示能力,以解决序列固有几何约束对建模长程依赖性的限制。此外,我们引入了一种线性复杂度的动态规划算法,以增强长程交互,而不增加计算成本。GrootVL是一个通用的多模态框架,可应用于视觉和文本任务。大量实验证明,我们的方法在图像分类、目标检测和分割等任务上显著优于现有的结构化状态空间模型。此外,通过对大型语言模型进行微调,我们的方法在多个文本任务上实现了一致的改进,而训练成本较低。
- 图表
- 解决问题本论文试图解决长序列建模中的长程依赖问题,提出了一种基于动态生成树拓扑结构的GrootVL网络,以增强序列建模的表达能力。
- 关键思路GrootVL网络首先基于空间关系和输入特征动态生成树拓扑结构,然后基于该图进行特征传播,突破原始序列约束以实现更强的表达能力。此外,论文还引入了一种线性复杂度的动态规划算法,以增强长程交互。
- 其它亮点论文在图像分类、目标检测和分割等任务中对GrootVL网络进行了广泛的实验验证,并表明该方法明显优于现有的结构化状态空间模型。此外,通过对大型语言模型进行微调,该方法在多个文本任务中实现了一致的改进。
- 在最近的相关研究中,还有一些与本论文相关的研究,例如:《Attention Is All You Need》、《Graph Convolutional Networks》等。


提问交流