ShapeLLM: Universal 3D Object Understanding for Embodied Interaction

2024年02月27日
  • 简介
    本论文介绍了ShapeLLM,这是第一个专为具体交互设计的三维多模式大语言模型(LLM),通过使用三维点云和语言探索通用的三维物体理解。ShapeLLM基于改进的3D编码器,通过将ReCon扩展到ReCon ++,从多视角图像提取几何信息以实现更好的几何理解。通过将ReCon ++作为LLM的3D点云输入编码器进行训练,ShapeLLM在构建的指令跟随数据上进行训练,并在我们新的人工策划的评估基准3D MM-Vet上进行测试。ReCon ++和ShapeLLM在三维几何理解和语言统一的三维交互任务(例如具体的视觉基础)方面实现了最先进的性能。
  • 图表
  • 解决问题
    论文旨在设计一个新的3D多模态大语言模型ShapeLLM,以解决3D对象理解和语言交互的问题。具体而言,论文试图将多视角图像融合到3D编码器中,提高几何理解的能力,以便更好地完成指令遵循等任务。
  • 关键思路
    论文的关键思路是将改进的3D编码器ReCon++与LLMs相结合,使用构建的指令遵循数据进行训练,并在新的人类策划的评估基准3D MM-Vet上进行测试。
  • 其它亮点
    通过使用ReCon++编码器,ShapeLLM在3D几何理解和语言统一的3D交互任务中实现了最先进的性能。论文使用了构建的指令遵循数据集和新的人类策划的评估基准3D MM-Vet进行测试。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如,论文中提到了使用视觉和语言信息进行3D对象检索的先前工作,如《VoxSRC: 3D Object Retrieval with Visual and Language Queries》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论