Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization

2024年04月17日
  • 简介
    3D视觉定位(3DVG)和3D密集字幕生成(3DDC)是各种3D应用中的两个关键任务,需要在定位和视觉语言关系方面具有共享和互补信息。因此,现有方法采用两阶段“检测-描述/区分”流程,严重依赖于检测器的性能,导致性能不佳。受DETR的启发,我们提出了一个统一的框架3DGCTR,以端到端的方式共同解决这两个不同但密切相关的任务。关键思想是重新考虑3DVG模型的基于提示的定位能力。通过这种方式,具有良好设计提示作为输入的3DVG模型可以通过从提示中提取定位信息来协助3DDC任务。在实现方面,我们将轻量级字幕头部集成到现有的3DVG网络中,并使用字幕文本提示作为连接,有效利用现有3DVG模型固有的定位能力,从而提高3DDC能力。这种集成便于同时进行两个任务的多任务训练,相互增强它们的性能。广泛的实验结果证明了这种方法的有效性。具体而言,在ScanRefer数据集上,3DGCTR在MLE训练中的CIDEr@0.5IoU上超过最先进的3DDC方法4.3%,并在0.25IoU的Acc上提高了SOTA 3DVG方法3.16%。
  • 图表
  • 解决问题
    解决问题:本文旨在解决3D视觉场景中的3D Visual Grounding和3D Dense Captioning两个任务的联合训练问题,提出了一种新的端到端框架。
  • 关键思路
    关键思路:本文提出的3DGCTR框架采用了基于DETR的prompt-based localization能力,将3DVG和3DDC两个任务结合起来,通过Caption Text Prompt在现有的3DVG网络中集成轻量级的Caption Head,实现了两个任务的联合训练。
  • 其它亮点
    亮点:本文在ScanRefer数据集上进行了实验,证明了3DGCTR框架的有效性。实验结果显示,在MLE训练中,3DGCTR在CIDEr@0.5IoU方面优于现有的3DDC方法4.3%,在Acc@0.25IoU方面优于现有的3DVG方法3.16%。
  • 相关研究
    相关研究:最近的相关研究包括:DETR、3DVG、3DDC等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论