MTMamba: Enhancing Multi-Task Dense Scene Understanding by Mamba-Based Decoders

简介

本文提出了一种新的基于Mamba的多任务场景理解架构MTMamba，用于学习多个密集预测任务的模型，其应用场景广泛。建模长程依赖和增强跨任务交互对于多任务密集预测至关重要。MTMamba包含两种核心块：自任务Mamba（STM）块和交叉任务Mamba（CTM）块。STM通过利用Mamba处理长程依赖，而CTM明确地建模任务交互，以促进跨任务的信息交换。在NYUDv2和PASCAL-Context数据集上的实验表明，MTMamba优于基于Transformer和基于CNN的方法。值得注意的是，在PASCAL-Context数据集上，MTMamba在语义分割、人体解析和对象边界检测任务上分别比先前最佳方法提高了+2.08、+5.01和+4.90。代码可在\url{https://github.com/EnVision-Research/MTMamba}上获得。
图表
解决问题

本文旨在解决多任务场景理解中的长距离依赖建模和跨任务交互增强问题。
关键思路

本文提出了一种基于Mamba的架构MTMamba，其中包含两种核心块：自任务Mamba（STM）块和跨任务Mamba（CTM）块。STM通过利用Mamba来处理长距离依赖，而CTM则明确地模拟任务交互，以促进任务间的信息交流。
其它亮点

本文在NYUDv2和PASCAL-Context数据集上进行了实验，证明了MTMamba相对于基于Transformer和CNN的方法具有更优越的性能。值得关注的是，在PASCAL-Context数据集上，MTMamba在语义分割、人体解析和物体边界检测任务上分别比先前最佳方法提高了+2.08、+5.01和+4.90。作者提供了开源代码。
相关研究

在这个领域中，最近还有一些相关的研究，如MultiNet、Multi-scale FCN、Multi-task Network Cascades等。

MTMamba: Enhancing Multi-Task Dense Scene Understanding by Mamba-Based Decoders

评论