- 简介之前的研究主要是针对特定任务开发专门的模型,或需要特定微调。本研究提出了一种名为“Grounded 3D-LLM”的方法,探索了三维大型多模态模型(3D LMMs)在统一生成框架内整合各种三维视觉任务的潜力。该模型使用场景参考标记作为特殊名词短语来引用三维场景,从而能够处理交错使用三维和文本数据的序列。它提供了一种自然的方法,使用特定任务的指令模板将三维视觉任务转换为语言格式。为了方便后续语言建模中参考标记的使用,我们策划了大规模的基于场景的语言数据集,通过引导现有的物体标签,提供了更精细的场景-文本对应关系,包括短语级别。随后,我们引入了对比语言-场景预训练(CLASP)来有效利用这些数据,从而将三维视觉与语言模型集成。我们的全面评估涵盖了开放式任务,如密集字幕和三维问答,以及闭合式任务,如物体检测和语言对齐。在多个三维基准测试中的实验结果显示了Grounded 3D-LLM的领先性能和广泛适用性。代码和数据集将在项目页面上发布:https://groundedscenellm.github.io/grounded_3d-llm.github.io。
-
- 图表
- 解决问题本文旨在探索3D大型多模型(3D LMM)在统一生成框架中整合各种3D视觉任务的潜力,通过引入场景参考令牌作为特殊名词短语来引用3D场景,从而实现处理交错3D和文本数据序列的能力。同时,为了促进引用令牌在后续语言建模中的使用,作者还策划了大规模基于语境的语言数据集,通过引导现有的物体标签来提供更细粒度的场景-文本对应关系。
- 关键思路本文提出了一种基于3D LMM的统一生成框架,采用场景参考令牌作为特殊名词短语来引用3D场景,从而整合各种3D视觉任务,并使用任务特定的指令模板将3D视觉任务转换为语言格式。此外,作者还提出了对比性语言-场景预训练(CLASP)来有效利用这些数据,从而将3D视觉与语言模型集成起来。
- 其它亮点本文的亮点包括:1. 提出了一种基于3D LMM的统一生成框架,可以处理交错3D和文本数据序列。2. 为了促进引用令牌在后续语言建模中的使用,策划了大规模基于语境的语言数据集。3. 提出了对比性语言-场景预训练(CLASP)来有效利用这些数据,从而将3D视觉与语言模型集成起来。4. 在多个3D基准测试中得到了领先的性能,并且具有广泛的适用性。
- 最近在这个领域中,还有一些相关研究,例如:1. '3D图像理解的多模态学习'(Multimodal Learning for 3D Image Understanding)2. '基于多任务学习的3D场景理解'(3D Scene Understanding with Multi-Task Learning)3. '基于深度学习的3D场景理解'(Deep Learning for 3D Scene Understanding)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流