3D-LLM: Injecting the 3D World into Large Language Models
解决问题:本篇论文旨在将三维物理世界的概念注入到大型语言模型中,以便执行更多的三维相关任务,如描述、问题回答、任务分解、对话等。本文提出了一种新的3D-LLMs模型,并介绍了三种提示机制来收集数据。
关键思路:本文的关键思路是将三维物理世界的概念注入到大型语言模型中,以实现更多的三维相关任务。为了有效地训练3D-LLMs,本文首先利用一个3D特征提取器从渲染的多视图图像中获取3D特征,然后使用2D VLMs作为背骨来训练3D-LLMs。通过引入3D定位机制,3D-LLMs可以更好地捕捉3D空间信息。
其他亮点:本文通过三种提示机制收集了超过300k的3D语言数据,并在ScanQA上进行了实验,结果表明,本文的模型在BLEU-1分数上超过了现有技术的得分。此外,本文还在3D字幕、任务组合和3D辅助对话的数据集上进行了实验,结果表明,本文的模型优于2D VLMs。本文还展示了模型的定性示例,表明该模型可以执行更多超出现有LLMs和VLMs范围的任务。
关于作者:本文的主要作者是Yining Hong、Haoyu Zhen、Peihao Chen、Shuhong Zheng、Yilun Du和Zhenfang Chen,他们来自中国和美国的多个机构,包括南京大学、华为、麻省理工学院等。他们的代表作包括“ScanComplete: Large-Scale Scene Completion and Semantic Segmentation for 3D Scans”和“Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations”。
相关研究:近期其他相关的研究包括“ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks”(Stefan et al.,Facebook AI Research)和“Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training”(Li et al.,Microsoft Research Asia)。
论文摘要:本文介绍了一种新的3D-LLMs模型,将三维世界注入到大型语言模型中,从而使其在包括常识推理在内的多个任务中表现出色。虽然大型语言模型和视觉-语言模型非常强大,但它们并没有基于三维物理世界,这涉及到更丰富的概念,如空间关系、可供性、物理、布局等。3D-LLMs可以接受三维点云及其特征作为输入,并执行多种三维相关任务,包括字幕生成、密集字幕生成、三维问答、任务分解、三维基础、三维辅助对话、导航等。通过三种提示机制的设计,我们能够收集超过300k的3D-语言数据,涵盖这些任务。为了有效地训练3D-LLMs,我们首先利用3D特征提取器从渲染的多视图图像中获取3D特征,然后使用2D VLMs作为我们的骨干来训练3D-LLMs。通过引入3D本地化机制,3D-LLMs可以更好地捕捉3D空间信息。在ScanQA上的实验表明,我们的模型比现有技术水平有很大提高(例如,BLEU-1得分超过现有技术水平9%)。此外,在我们的3D字幕、任务组合和三维辅助对话的数据集上的实验表明,我们的模型优于2D VLMs。定性的例子也表明,我们的模型可以执行超出现有LLMs和VLMs范围的更多任务。项目页面:https://vis-www.cs.umass.edu/3dllm/。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢