3D-LLM: Injecting the 3D World into Large Language Models

Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du, Zhenfang Chen, Chuang Gan
[University of California, Los Angeles & Shanghai Jiao Tong University & South China University of Technology & ...]

3D-LLM:将3D世界注入大规模语言模型

  • 动机:尽管大型语言模型(LLM)和视觉-语言模型(VLM)已在多个任务上表现出色,如常识推理,但它们并未深度理解与三维(3D)物理世界相关的更丰富的概念,如空间关系,物体可能性,物理规律,布局等。
  • 方法:提出一种新的3D-LLM,能接受3D点云及其特征作为输入,完成一系列与3D相关的任务。首先使用一个3D特征提取器从渲染的多视图图像中获取3D特征,然后使用2D VLM作为3D-LLM的主干进行训练。引入一种3D定位机制,使3D-LLM能更好地捕捉3D空间信息。 优势:所提出模型在ScanQA上超过了最先进的基线(例如,BLEU-1得分超过最先进的得分9%)。此外,对用于3D字幕,任务组合和3D辅助对话的内部数据集的实验显示,所提出模型优于2D VLM。

引入了新的3D大型语言模型(3D-LLM),能处理3D点云及其特性,并在3D相关任务中表现优秀,包括描述,密集描述,3D问答,任务分解,3D定位,3D辅助对话和导航等。

Project Page: : https://vis-www.cs.umass.edu/3dllm/ 

https://arxiv.org/abs/2307.12981 


图片
图片
图片


内容中包含的图片若涉及版权问题,请及时与我们联系删除