Do 3D Large Language Models Really Understand 3D Spatial Relationships?

向作者提问

NEW

简介

近期提出的三维大语言模型（3D-LLMs）声称具备理解三维世界的能力，尤其擅长把握物体之间的空间关系。然而，我们发现：仅在纯文本问答对上对语言模型进行微调，即可在SQA3D基准测试中取得与这些3D-LLMs相当、甚至更优的性能，且完全无需任何三维输入。这表明，SQA3D基准可能无法有效甄别模型究竟是依赖文本层面的“捷径”（textual shortcuts）作出回答，还是真正开展了具备三维感知能力的推理。为解决这一问题，我们提出了Real-3DQA——一个更为严格、更具挑战性的评估基准：它首先过滤掉那些仅凭常识或上下文即可轻易猜测答案的简单问题，并进一步构建了一套结构化的分类体系，用以系统性地评估模型在各类三维推理任务中的表现。在Real-3DQA上的实验结果证实，一旦剔除那些易于利用的表面线索，现有3D-LLMs在空间关系理解方面便显著乏力。为此，我们进一步提出一种三维重加权训练目标（3D-reweighted training objective），引导模型在推理过程中更多地依赖三维视觉线索，从而大幅提升其在空间推理任务上的性能。我们的研究结果凸显了构建鲁棒评估基准与设计针对性训练策略的必要性，唯有如此，才能切实推动三维视觉-语言理解向真实、深入的方向发展。项目主页：https://real-3dqa.github.io/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有3D-LLM评估基准（如SQA3D）存在严重缺陷：其问题可被纯文本统计规律或语言先验‘捷径’（textual shortcuts）所解决，无法真实检验模型是否具备3D空间理解能力；论文旨在验证并暴露这一评估失效问题，并建立真正能区分‘伪3D推理’与‘真3D感知推理’的严格评测标准。
关键思路

提出Real-3DQA——一个经结构化过滤（剔除易猜测题）、细粒度分层（覆盖方位、距离、遮挡、拓扑等7类空间关系）且3D-grounded（强制依赖点云/多视图几何线索）的新基准；并设计3D-reweighted训练目标，通过梯度重加权机制显式抑制语言捷径、增强模型对3D视觉特征的注意力，从而从训练层面引导模型‘看懂’而非‘猜对’。
其它亮点

1) Real-3DQA在2,148个高质量人工构造+3D-grounded问题上验证：主流3D-LLMs（如LISA、3D-LLM）在SQA3D上表现优异但在Real-3DQA上骤降32.7%~48.1%，证实其严重依赖文本捷径；2) 实验采用ScanNet/3RScan真实扫描场景+NeRF合成数据双源构建，所有问题均经3D空间约束验证（如射线投射检测遮挡、欧氏距离阈值校验）；3) 开源全部数据、评估代码及基线模型权重（GitHub + Project Page）；4) 关键发现：仅增加3D输入模态不等于获得3D理解，需联合评估设计与训练机制协同优化。
相关研究

1) SQA3D: A Benchmark for Spatial Question Answering in 3D Scenes (CVPR 2023); 2) LISA: Language-Informed Scene Understanding with 3D Large Language Models (ICML 2024); 3) 3D-LLM: Integrating Vision, Language, and Geometry for 3D Reasoning (NeurIPS 2023); 4) Shortcut Learning in Vision-Language Models: A Diagnostic Study (ACL 2024); 5) ScanQA: 3D Visual Question Answering in Real-World Indoor Scenes (ECCV 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问