POMA-3D: The Point Map Way to 3D Scene Understanding

向作者提问

NEW

简介

本文提出了POMA-3D，这是首个基于点图（point maps）自监督学习的三维表征模型。点图将明确的三维坐标编码在结构化的二维网格上，在保留全局三维几何结构的同时，仍与二维基础模型的输入格式兼容。为了将丰富的二维先验知识迁移到POMA-3D中，我们设计了一种视图到场景对齐策略。此外，由于点图相对于规范空间具有视角依赖性，我们引入了POMA-JEPA——一种联合嵌入-预测架构，以确保在多个视角下点图特征在几何上保持一致。同时，我们构建了ScenePoint数据集，该数据集包含来自6.5K个房间级RGB-D场景和100万个二维图像场景的点图，以支持POMA-3D的大规模预训练。实验表明，POMA-3D可作为专用和通用三维理解任务的强大骨干网络，仅利用几何输入（即三维坐标）即可提升包括三维问答、具身导航、场景检索和具身定位在内的多种任务性能。总体而言，我们的POMA-3D探索了一条通过点图实现三维场景理解的新路径，有效应对了三维表征学习中预训练先验知识稀缺和数据不足的问题。项目主页：https://matchlab-imperial.github.io/poma3d/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决3D表示学习中预训练先验知识稀缺和数据不足的问题。由于缺乏大规模的标注数据以及与2D基础模型兼容的有效输入格式，现有的3D表示学习方法难以充分利用丰富的2D视觉先验。该问题在当前3D场景理解领域是一个关键挑战，并非全新问题，但尚未得到充分解决。
关键思路

提出POMA-3D，首个从点图（point maps）中自监督学习的3D表示模型。点图将3D坐标编码到结构化2D网格上，既保留全局几何结构，又兼容2D基础模型的输入格式。通过设计视图到场景对齐策略迁移2D先验，并引入POMA-JEPA架构实现多视角下几何一致的特征学习。这一思路创新地结合了2D模型的强大先验与3D几何结构，实现了无需RGB等外观信息、仅依赖3D坐标的通用3D理解。
其它亮点

提出了ScenePoint数据集，包含6.5K房间级RGB-D场景和1M 2D图像场景，支持大规模预训练；实验验证POMA-3D作为骨干网络在3D问答、具身导航、场景检索和具身定位等多个任务上均表现优异，且仅使用几何输入；方法强调自监督与多视角一致性，具备良好的泛化能力；项目已开源，提供代码与模型，促进后续研究；未来可探索其在动态场景建模、跨模态融合及更复杂具身智能任务中的应用。
相关研究

1. Masked Autoencoders Are Scalable Vision Learners 2. BEiT: Bert Pre-Training of Image Transformers 3. Point-BERT: Unified Pre-Trained Model for Point Cloud Understanding 4. Self-Supervised 3D Representation Learning with Viewpoint Prediction 5. Contrastive Multiview Coding 6. Emerging Properties in Self-Supervised Vision Transformers

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问