Unifying 3D Vision-Language Understanding via Promptable Queries

向作者提问

NEW

简介

本文介绍了一种名为PQ3D的统一模型，能够使用可提示查询（Promptable Queries）解决各种3D视觉语言（3D-VL）任务，从低级实例分割到高级推理和规划，以期实现对各种场景表示形式的统一处理。通过三个关键创新：（1）通过分割级别分组将各种3D场景表示（即体素、点云、多视角图像）统一到共享的3D坐标空间中，（2）基于注意力的查询解码器，用于由提示引导的任务特定信息检索，以及（3）支持不同任务的通用输出头以支持多任务训练，实现了这一目标。在十个不同的3D-VL数据集上进行测试，PQ3D在这些任务上表现出色，在大多数基准测试中都创造了新纪录。特别是，在ScanNet200上，PQ3D将AP提高了1.8％，在ScanRefer上将acc@0.5提高了5.4％，在Multi3DRefer上将F1@0.5提高了11.7％，在Scan2Cap上将CIDEr@0.5提高了13.4％。此外，PQ3D支持使用可用的各种3D表示形式的个别或组合形式进行灵活的推理，例如仅使用体素输入。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

PQ3D试图解决3D视觉-语言理解中的多任务统一模型问题，通过使用Promptable Queries解决从低层次的实例分割到高层次的推理和规划等多种任务。
关键思路

PQ3D通过将不同的3D场景表示（如体素、点云、多视角图像）统一到共享的3D坐标空间中，使用分割级别的分组来实现，然后使用基于注意力的查询解码器来检索任务特定信息，并使用通用输出头支持不同任务的多任务训练。
其它亮点

PQ3D在十个不同的3D视觉-语言理解数据集上进行了测试，并在大多数基准测试中取得了出色的表现，特别是在ScanNet200、ScanRefer、Multi3DRefer和Scan2Cap等数据集上取得了新的最优结果。此外，PQ3D支持使用可用的单个或组合形式的3D表示进行灵活的推理，例如仅使用体素输入。
相关研究

在这个领域中，最近的相关研究包括VL-BERT、3D-GAN、3D-R2N2等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问