Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning

向作者提问

NEW

简介

本文介绍了一种名为Scene-LLM的三维视觉语言模型，它通过整合大型语言模型（LLM）的推理能力，增强了具有交互式三维室内环境的体验代理的能力。Scene-LLM采用混合的三维视觉特征表示，包括密集的空间信息，并支持场景状态更新。该模型采用投影层，将这些特征有效地投影到预先训练的文本嵌入空间中，实现对三维视觉信息的有效解释。我们方法的独特之处在于将场景级和自我中心的三维信息进行整合。这种组合对于交互式规划至关重要，其中场景级数据支持全局规划，自我中心数据则对于定位非常重要。值得注意的是，我们使用自我中心的三维帧特征进行特征对齐，这是一种增强模型对场景中小物体特征对齐能力的有效技术。我们使用Scene-LLM进行的实验表明，它在密集字幕、问答和交互式规划方面具有强大的能力。我们相信，Scene-LLM推进了三维视觉理解和推理领域，为室内环境中复杂代理交互提供了新的可能性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在通过整合大型语言模型的推理能力，引入一种新的三维视觉语言模型Scene-LLM，提高交互式三维室内环境中的体验。该模型结合了场景级和自我中心的三维信息，以支持全局规划和本地化等交互式规划任务。
关键思路

该论文提出了一种新的三维视觉语言模型Scene-LLM，采用混合的三维视觉特征表示，通过投影层将这些特征有效地投射到预训练的文本嵌入空间中，从而实现对三维视觉信息的有效解释和推理。
其它亮点

该论文的亮点包括采用了一种新的三维视觉语言模型，结合了场景级和自我中心的三维信息，以支持全局规划和本地化等交互式规划任务。此外，该论文在稠密字幕、问答和交互式规划等任务中取得了良好的实验结果。论文使用了多个数据集，并提供了开源代码。
相关研究

在这个领域中，最近的相关研究包括：《EmbodiedQA: Bridging the Gap Between Image and Language Understanding》、《Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks》、《Learning to Navigate the Web》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问