- 简介最近,多模态大型语言模型的进展显示出它们在各个领域,特别是概念推理方面的潜力。尽管有这些进展,但在理解3D环境方面的应用仍然有限。本文介绍了一种名为Reason3D的新型LLM,旨在实现全面的3D理解。Reason3D将点云数据和文本提示作为输入,生成文本响应和分割掩模,便于高级任务,如3D推理分割、分层搜索、表述引用和问题回答,同时提供详细的掩模输出。具体而言,我们提出了一种分层掩模解码器,用于在广阔的场景中定位小物体。该解码器最初生成一个粗略的位置估计,覆盖物体的一般区域。这个基础估计有助于详细的、粗到细的分割策略,显著提高了物体识别和分割的精度。实验验证了Reason3D在大规模的ScanNet和Matterport3D数据集上实现了出色的3D表述引用、3D问题回答和3D推理分割任务的结果。代码和模型可在以下网址获取:https://github.com/KuanchihHuang/Reason3D。
-
- 图表
- 解决问题本论文旨在解决3D环境理解领域中,语言模型应用受限的问题,提出了一种新的LLM模型Reason3D,以实现全面的3D理解。
- 关键思路Reason3D模型采用点云数据和文本提示作为输入,生成文本响应和分割掩模,利用分层掩模解码器定位小物体,实现精细的分割策略,从而提高对象识别和分割的精度。
- 其它亮点论文在大规模ScanNet和Matterport3D数据集上进行了实验,验证了Reason3D在3D快速引用、3D问题回答和3D推理分割任务上的显著结果。此外,论文提供了代码和模型。
- 最近的相关研究包括:《3D语义分割的多模态深度学习》、《基于语言的3D场景理解:综述》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流