ShapeLLM: Universal 3D Object Understanding for Embodied Interaction

简介

本论文介绍了ShapeLLM，这是第一个专为具体交互设计的三维多模式大语言模型（LLM），通过使用三维点云和语言探索通用的三维物体理解。ShapeLLM基于改进的3D编码器，通过将ReCon扩展到ReCon ++，从多视角图像提取几何信息以实现更好的几何理解。通过将ReCon ++作为LLM的3D点云输入编码器进行训练，ShapeLLM在构建的指令跟随数据上进行训练，并在我们新的人工策划的评估基准3D MM-Vet上进行测试。ReCon ++和ShapeLLM在三维几何理解和语言统一的三维交互任务（例如具体的视觉基础）方面实现了最先进的性能。
图表
解决问题

论文旨在设计一个新的3D多模态大语言模型ShapeLLM，以解决3D对象理解和语言交互的问题。具体而言，论文试图将多视角图像融合到3D编码器中，提高几何理解的能力，以便更好地完成指令遵循等任务。
关键思路

论文的关键思路是将改进的3D编码器ReCon++与LLMs相结合，使用构建的指令遵循数据进行训练，并在新的人类策划的评估基准3D MM-Vet上进行测试。
其它亮点

通过使用ReCon++编码器，ShapeLLM在3D几何理解和语言统一的3D交互任务中实现了最先进的性能。论文使用了构建的指令遵循数据集和新的人类策划的评估基准3D MM-Vet进行测试。
相关研究

最近在这个领域中，还有一些相关的研究。例如，论文中提到了使用视觉和语言信息进行3D对象检索的先前工作，如《VoxSRC: 3D Object Retrieval with Visual and Language Queries》。

ShapeLLM: Universal 3D Object Understanding for Embodied Interaction

评论