- 简介本文提出了一种用于多任务场景理解的新型Mamba架构MTMamba,该架构包含两种核心模块:自任务Mamba(STM)块和跨任务Mamba(CTM)块。STM通过利用Mamba来处理长程依赖,而CTM则显式地模拟任务交互,以促进跨任务的信息交流。在NYUDv2和PASCAL-Context数据集上的实验证明,MTMamba比基于Transformer和CNN的方法具有更优异的性能。值得注意的是,在PASCAL-Context数据集上,MTMamba在语义分割、人体解析和物体边界检测任务上相较于之前最佳方法分别提高了2.08、5.01和4.90。该代码可在https://github.com/EnVision-Research/MTMamba上获取。
- 图表
- 解决问题本文旨在解决多任务密集场景理解中的长程依赖建模和跨任务交互增强问题。
- 关键思路本文提出了一种基于Mamba的新型多任务场景理解架构MTMamba,其中包含两种核心块:自任务Mamba(STM)块和跨任务Mamba(CTM)块。STM通过利用Mamba来处理长程依赖,而CTM则明确地对任务交互进行建模,以促进任务间的信息交换。
- 其它亮点实验在NYUDv2和PASCAL-Context数据集上进行,结果表明MTMamba在语义分割、人体解析和物体边界检测等任务上均优于基于Transformer和CNN的方法。值得注意的是,在PASCAL-Context数据集上,MTMamba在语义分割、人体解析和物体边界检测任务上的改进分别为+2.08、+5.01和+4.90。研究者已经在GitHub上公开了代码。
- 在多任务密集场景理解领域,最近的相关研究包括:Multi-Task Learning for Dense Prediction Tasks with Resource Constraints、Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics、Multi-Task Learning for Segmentation of Building Facades with Deep Neural Networks等。
沙发等你来抢
去评论
评论
沙发等你来抢