LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences

向作者提问

NEW

简介

对3D视觉-语言模型（3D-VLM）的研究正日益受到关注，这对于在3D场景中开发具身AI，如视觉导航和具身问答至关重要。由于3D场景中的视觉特征密度很高，特别是在大型3D场景中，准确地定位任务相关的视觉信息变得非常具有挑战性。现有的工作试图分割所有对象，并将它们的特征作为场景表示。然而，这些与任务无关的对象特征包含大量冗余信息，并且缺乏任务相关区域的细节。为了解决这些问题，我们提出了LSceneLLM，这是一种自适应框架，通过利用大语言模型（LLM）对不同任务的视觉偏好，自动识别任务相关区域，并通过一个即插即用的场景放大模块来捕捉聚焦区域的细粒度细节。具体来说，一个密集的标记选择器会检查LLM的注意力图，以确定指令输入的视觉偏好。然后，它会放大聚焦区域的细粒度细节。一个自适应的自注意力模块被用来融合粗粒度和选定的细粒度视觉信息。为了全面评估3D-VLM的大场景理解能力，我们进一步引入了一个跨房间理解基准XR-Scene，其中包含一系列大场景理解任务，包括XR-QA、XR-具身规划和XR-场景描述。实验结果表明，我们的方法在大场景理解和现有场景理解基准上均超过了现有方法。将我们的场景放大模块集成到现有的3D-VLM中也带来了显著的改进。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决在大型3D场景中准确识别任务相关视觉信息的挑战。现有的方法通过分割所有对象并将其特征作为场景表示，但这种方法包含大量冗余信息且缺乏对任务相关区域的细节描述。
关键思路

论文提出了一种名为LSceneLLM的自适应框架，通过利用大语言模型（LLM）的视觉偏好自动识别任务相关区域，并结合插件式场景放大模块捕捉这些区域的细粒度细节。具体来说，一个密集的令牌选择器通过检查LLM的注意力图来识别视觉偏好，并放大关注区域的细节。自适应自注意力模块用于融合粗粒度和选定的细粒度视觉信息。
其它亮点

1. 提出了一个新的跨房间理解基准XR-Scene，包含一系列大型场景理解任务，如XR-QA、XR-EmbodiedPlanning和XR-SceneCaption。 2. 实验结果显示，LSceneLLM在大型场景理解和现有场景理解基准上均优于现有方法。 3. 将场景放大模块集成到现有的3D-VLM中也能显著提升性能。 4. 该方法具有广泛的适用性，可以应用于多种3D场景理解任务。
相关研究

近期在这个领域中，还有一些相关的研究，例如： 1. '3D Scene Graph Generation from Point Clouds' - 探索从点云生成3D场景图的方法。 2. 'Visual Navigation with Language Instructions in 3D Environments' - 研究如何在3D环境中使用语言指令进行视觉导航。 3. 'Learning to Navigate Unseen Environments with Multimodal Fusion' - 通过多模态融合学习在未见过的环境中导航。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问