Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model

简介

最近，多模态大型语言模型的进展显示出它们在各个领域，特别是概念推理方面的潜力。尽管有这些进展，但在理解3D环境方面的应用仍然有限。本文介绍了一种名为Reason3D的新型LLM，旨在实现全面的3D理解。Reason3D将点云数据和文本提示作为输入，生成文本响应和分割掩模，便于高级任务，如3D推理分割、分层搜索、表述引用和问题回答，同时提供详细的掩模输出。具体而言，我们提出了一种分层掩模解码器，用于在广阔的场景中定位小物体。该解码器最初生成一个粗略的位置估计，覆盖物体的一般区域。这个基础估计有助于详细的、粗到细的分割策略，显著提高了物体识别和分割的精度。实验验证了Reason3D在大规模的ScanNet和Matterport3D数据集上实现了出色的3D表述引用、3D问题回答和3D推理分割任务的结果。代码和模型可在以下网址获取：https://github.com/KuanchihHuang/Reason3D。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决3D环境理解领域中，语言模型应用受限的问题，提出了一种新的LLM模型Reason3D，以实现全面的3D理解。
关键思路

Reason3D模型采用点云数据和文本提示作为输入，生成文本响应和分割掩模，利用分层掩模解码器定位小物体，实现精细的分割策略，从而提高对象识别和分割的精度。
其它亮点

论文在大规模ScanNet和Matterport3D数据集上进行了实验，验证了Reason3D在3D快速引用、3D问题回答和3D推理分割任务上的显著结果。此外，论文提供了代码和模型。
相关研究

最近的相关研究包括：《3D语义分割的多模态深度学习》、《基于语言的3D场景理解：综述》等。

Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model

提问交流

提问交流