ECCV 2022 | InvPT：用于密集场景理解的倒金字塔多任务Transformer

多任务密集场景理解是一个蓬勃发展的研究领域，需要对一系列相关任务同时进行感知和推理，并进行逐像素预测。由于卷积操作的大量使用，大多数现有工作在局部建模中遇到了严重的限制，而在全局空间位置和多任务上下文中学习交互和推理对于这个问题至关重要。

在本文中，我们提出了一种新颖的端到端倒金字塔多任务 (InvPT) Transformer，以在统一的框架中执行空间位置和多个任务的同时建模。据我们所知，这是第一项探索设计用于多任务密集预测以进行场景理解的Transformer结构的工作。

此外，广泛证明更高的空间分辨率对密集预测非常有利，而由于大空间尺寸的巨大复杂性，现有的Transformer以更高的分辨率更深是非常具有挑战性的。

InvPT 提出了一个高效的 UP-Transformer 块，以逐渐增加的分辨率学习多任务特征交互，它还结合了有效的自注意力消息传递和多尺度特征聚合，以产生高分辨率的特定于任务的预测。

我们的方法分别在 NYUD-v2 和 PASCAL-Context 数据集上实现了卓越的多任务性能，并且显著优于以前的最新技术。代码和经过训练的模型将公开可用。

内容中包含的图片若涉及版权问题，请及时与我们联系删除