ECCV2022 Oral | 任务范式大统一，微软提出UniTAB用Seq2Seq模式统一多模态任务！

论文标题：UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling

论文地址：https://arxiv.org/abs/2111.12085

代码地址：https://github.com/microsoft/UniTAB

作者使用构建在单模态图像和文本编码器之上的Transformer编码器-解码器架构来实现 UniTAB，如下图所示。对于图像，作者使用 ResNet-101对原始图像输入 v 进行编码，并将网格特征展平作为视觉表示。对于文本，使用将输入文本 l 编码为隐藏词特征。作者使用一个 6 层的 Transformer 编码器，它接收concat的图像和文本特征序列作为输入，以及用于生成输出序列的 6 层Transformer 解码器。解码器以自回归方式生成输出token，类似于语言建模。UniTAB 解码器可以从文本和方框词汇中生成token，如下图右侧所示。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ECCV2022 Oral | 任务范式大统一，微软提出UniTAB用Seq2Seq模式统一多模态任务！

评论列表

评论