Unifying 3D Vision-Language Understanding via Promptable Queries

2024年05月19日
  • 简介
    本文介绍了一种名为PQ3D的统一模型,能够使用可提示查询(Promptable Queries)解决各种3D视觉语言(3D-VL)任务,从低级实例分割到高级推理和规划,以期实现对各种场景表示形式的统一处理。通过三个关键创新:(1)通过分割级别分组将各种3D场景表示(即体素、点云、多视角图像)统一到共享的3D坐标空间中,(2)基于注意力的查询解码器,用于由提示引导的任务特定信息检索,以及(3)支持不同任务的通用输出头以支持多任务训练,实现了这一目标。在十个不同的3D-VL数据集上进行测试,PQ3D在这些任务上表现出色,在大多数基准测试中都创造了新纪录。特别是,在ScanNet200上,PQ3D将AP提高了1.8%,在ScanRefer上将acc@0.5提高了5.4%,在Multi3DRefer上将F1@0.5提高了11.7%,在Scan2Cap上将CIDEr@0.5提高了13.4%。此外,PQ3D支持使用可用的各种3D表示形式的个别或组合形式进行灵活的推理,例如仅使用体素输入。
  • 作者讲解
  • 图表
  • 解决问题
    PQ3D试图解决3D视觉-语言理解中的多任务统一模型问题,通过使用Promptable Queries解决从低层次的实例分割到高层次的推理和规划等多种任务。
  • 关键思路
    PQ3D通过将不同的3D场景表示(如体素、点云、多视角图像)统一到共享的3D坐标空间中,使用分割级别的分组来实现,然后使用基于注意力的查询解码器来检索任务特定信息,并使用通用输出头支持不同任务的多任务训练。
  • 其它亮点
    PQ3D在十个不同的3D视觉-语言理解数据集上进行了测试,并在大多数基准测试中取得了出色的表现,特别是在ScanNet200、ScanRefer、Multi3DRefer和Scan2Cap等数据集上取得了新的最优结果。此外,PQ3D支持使用可用的单个或组合形式的3D表示进行灵活的推理,例如仅使用体素输入。
  • 相关研究
    在这个领域中,最近的相关研究包括VL-BERT、3D-GAN、3D-R2N2等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问