- 简介让大型语言模型(LLMs)与三维环境互动是具有挑战性的。现有方法从地面真实几何或由辅助模型重建的三维场景中提取点云。然后,从CLIP中提取文本-图像对齐的二维特征,将其提升到点云,作为LLMs的输入。然而,这种解决方案缺乏建立三维点对点连接,导致空间结构信息不足。同时,场景的几何和语义表示之间缺乏集成和统一,导致三维场景理解水平降低。本文展示了具有统一场景表示和重建框架的重要性,这对LLMs在三维场景中至关重要。具体而言,我们介绍了Uni3DR^2,通过冻结预训练的二维基础模型(例如CLIP和SAM)和多尺度聚合的三维解码器提取三维几何和语义感知表示特征。我们学习到的三维表示不仅有助于重建过程,还为LLMs提供了宝贵的知识。实验结果验证了我们的Uni3DR^2在三维重建数据集ScanNet上比基线获得了令人信服的收益(F-Score提高了+1.8%)。当应用于LLMs时,我们的Uni3DR^2-LLM在三维视觉语言理解数据集ScanQA上表现优于基线(在val集和test集上BLEU-1分别提高了+4.0%和+4.2%)。此外,它在ScanQA和3DMV-VQA上都优于使用额外的GT点云的最先进方法。
- 图表
- 解决问题解决问题:论文试图提出一种统一的场景表示和重建框架,以便大型语言模型在三维场景中进行交互。现有的方法缺乏点对点连接,导致空间结构信息不足,并且几何和语义表示的缺乏集成和统一,导致三维场景理解水平降低。
- 关键思路关键思路:论文提出了Uni3DR^2,通过冻结预训练的二维基础模型(如CLIP和SAM)和多尺度聚合三维解码器提取三维几何和语义感知表示特征。这种学习到的三维表示不仅有助于重建过程,还为大型语言模型提供了宝贵的知识。
- 其它亮点其他亮点:论文使用ScanNet数据集进行实验验证,并且在ScanQA数据集上展示了Uni3DR^2-LLM的优越性能。此外,它在ScanQA和3DMV-VQA上均优于使用附加GT点云的最先进方法。值得关注的是,论文提出的Uni3DR^2框架可以进一步推广到其他领域,如机器人视觉和增强现实等。论文开源了代码。
- 相关研究:最近在这个领域中,一些相关的研究包括:《3D图像理解:从几何到语义》、《基于深度学习的三维场景重建:综述与展望》、《基于深度学习的三维场景理解:综述和展望》等。
沙发等你来抢
去评论
评论
沙发等你来抢