Grounded 3D-LLM with Referent Tokens

向作者提问

NEW

简介

之前的研究主要是针对特定任务开发专门的模型，或需要特定微调。本研究提出了一种名为“Grounded 3D-LLM”的方法，探索了三维大型多模态模型（3D LMMs）在统一生成框架内整合各种三维视觉任务的潜力。该模型使用场景参考标记作为特殊名词短语来引用三维场景，从而能够处理交错使用三维和文本数据的序列。它提供了一种自然的方法，使用特定任务的指令模板将三维视觉任务转换为语言格式。为了方便后续语言建模中参考标记的使用，我们策划了大规模的基于场景的语言数据集，通过引导现有的物体标签，提供了更精细的场景-文本对应关系，包括短语级别。随后，我们引入了对比语言-场景预训练（CLASP）来有效利用这些数据，从而将三维视觉与语言模型集成。我们的全面评估涵盖了开放式任务，如密集字幕和三维问答，以及闭合式任务，如物体检测和语言对齐。在多个三维基准测试中的实验结果显示了Grounded 3D-LLM的领先性能和广泛适用性。代码和数据集将在项目页面上发布：https://groundedscenellm.github.io/grounded_3d-llm.github.io。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在探索3D大型多模型（3D LMM）在统一生成框架中整合各种3D视觉任务的潜力，通过引入场景参考令牌作为特殊名词短语来引用3D场景，从而实现处理交错3D和文本数据序列的能力。同时，为了促进引用令牌在后续语言建模中的使用，作者还策划了大规模基于语境的语言数据集，通过引导现有的物体标签来提供更细粒度的场景-文本对应关系。
关键思路

本文提出了一种基于3D LMM的统一生成框架，采用场景参考令牌作为特殊名词短语来引用3D场景，从而整合各种3D视觉任务，并使用任务特定的指令模板将3D视觉任务转换为语言格式。此外，作者还提出了对比性语言-场景预训练（CLASP）来有效利用这些数据，从而将3D视觉与语言模型集成起来。
其它亮点

本文的亮点包括：1. 提出了一种基于3D LMM的统一生成框架，可以处理交错3D和文本数据序列。2. 为了促进引用令牌在后续语言建模中的使用，策划了大规模基于语境的语言数据集。3. 提出了对比性语言-场景预训练（CLASP）来有效利用这些数据，从而将3D视觉与语言模型集成起来。4. 在多个3D基准测试中得到了领先的性能，并且具有广泛的适用性。
相关研究

最近在这个领域中，还有一些相关研究，例如：1. '3D图像理解的多模态学习'（Multimodal Learning for 3D Image Understanding）2. '基于多任务学习的3D场景理解'（3D Scene Understanding with Multi-Task Learning）3. '基于深度学习的3D场景理解'（Deep Learning for 3D Scene Understanding）

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问