Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning

2024年03月18日
  • 简介
    本文介绍了一种名为Scene-LLM的三维视觉语言模型,它通过整合大型语言模型(LLM)的推理能力,增强了具有交互式三维室内环境的体验代理的能力。Scene-LLM采用混合的三维视觉特征表示,包括密集的空间信息,并支持场景状态更新。该模型采用投影层,将这些特征有效地投影到预先训练的文本嵌入空间中,实现对三维视觉信息的有效解释。我们方法的独特之处在于将场景级和自我中心的三维信息进行整合。这种组合对于交互式规划至关重要,其中场景级数据支持全局规划,自我中心数据则对于定位非常重要。值得注意的是,我们使用自我中心的三维帧特征进行特征对齐,这是一种增强模型对场景中小物体特征对齐能力的有效技术。我们使用Scene-LLM进行的实验表明,它在密集字幕、问答和交互式规划方面具有强大的能力。我们相信,Scene-LLM推进了三维视觉理解和推理领域,为室内环境中复杂代理交互提供了新的可能性。
  • 图表
  • 解决问题
    该论文旨在通过整合大型语言模型的推理能力,引入一种新的三维视觉语言模型Scene-LLM,提高交互式三维室内环境中的体验。该模型结合了场景级和自我中心的三维信息,以支持全局规划和本地化等交互式规划任务。
  • 关键思路
    该论文提出了一种新的三维视觉语言模型Scene-LLM,采用混合的三维视觉特征表示,通过投影层将这些特征有效地投射到预训练的文本嵌入空间中,从而实现对三维视觉信息的有效解释和推理。
  • 其它亮点
    该论文的亮点包括采用了一种新的三维视觉语言模型,结合了场景级和自我中心的三维信息,以支持全局规划和本地化等交互式规划任务。此外,该论文在稠密字幕、问答和交互式规划等任务中取得了良好的实验结果。论文使用了多个数据集,并提供了开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:《EmbodiedQA: Bridging the Gap Between Image and Language Understanding》、《Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks》、《Learning to Navigate the Web》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论