- 简介本文介绍了一种名为Scene-LLM的三维视觉语言模型,它通过整合大型语言模型(LLM)的推理能力,增强了具有交互式三维室内环境的体验代理的能力。Scene-LLM采用混合的三维视觉特征表示,包括密集的空间信息,并支持场景状态更新。该模型采用投影层,将这些特征有效地投影到预先训练的文本嵌入空间中,实现对三维视觉信息的有效解释。我们方法的独特之处在于将场景级和自我中心的三维信息进行整合。这种组合对于交互式规划至关重要,其中场景级数据支持全局规划,自我中心数据则对于定位非常重要。值得注意的是,我们使用自我中心的三维帧特征进行特征对齐,这是一种增强模型对场景中小物体特征对齐能力的有效技术。我们使用Scene-LLM进行的实验表明,它在密集字幕、问答和交互式规划方面具有强大的能力。我们相信,Scene-LLM推进了三维视觉理解和推理领域,为室内环境中复杂代理交互提供了新的可能性。
- 图表
- 解决问题该论文旨在通过整合大型语言模型的推理能力,引入一种新的三维视觉语言模型Scene-LLM,提高交互式三维室内环境中的体验。该模型结合了场景级和自我中心的三维信息,以支持全局规划和本地化等交互式规划任务。
- 关键思路该论文提出了一种新的三维视觉语言模型Scene-LLM,采用混合的三维视觉特征表示,通过投影层将这些特征有效地投射到预训练的文本嵌入空间中,从而实现对三维视觉信息的有效解释和推理。
- 其它亮点该论文的亮点包括采用了一种新的三维视觉语言模型,结合了场景级和自我中心的三维信息,以支持全局规划和本地化等交互式规划任务。此外,该论文在稠密字幕、问答和交互式规划等任务中取得了良好的实验结果。论文使用了多个数据集,并提供了开源代码。
- 在这个领域中,最近的相关研究包括:《EmbodiedQA: Bridging the Gap Between Image and Language Understanding》、《Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks》、《Learning to Navigate the Web》等。
沙发等你来抢
去评论
评论
沙发等你来抢