- 简介本文提出了POMA-3D,这是首个基于点图(point maps)自监督学习的三维表征模型。点图将明确的三维坐标编码在结构化的二维网格上,在保留全局三维几何结构的同时,仍与二维基础模型的输入格式兼容。为了将丰富的二维先验知识迁移到POMA-3D中,我们设计了一种视图到场景对齐策略。此外,由于点图相对于规范空间具有视角依赖性,我们引入了POMA-JEPA——一种联合嵌入-预测架构,以确保在多个视角下点图特征在几何上保持一致。同时,我们构建了ScenePoint数据集,该数据集包含来自6.5K个房间级RGB-D场景和100万个二维图像场景的点图,以支持POMA-3D的大规模预训练。实验表明,POMA-3D可作为专用和通用三维理解任务的强大骨干网络,仅利用几何输入(即三维坐标)即可提升包括三维问答、具身导航、场景检索和具身定位在内的多种任务性能。总体而言,我们的POMA-3D探索了一条通过点图实现三维场景理解的新路径,有效应对了三维表征学习中预训练先验知识稀缺和数据不足的问题。项目主页:https://matchlab-imperial.github.io/poma3d/
-
- 图表
- 解决问题论文试图解决3D表示学习中预训练先验知识稀缺和数据不足的问题。由于缺乏大规模的标注数据以及与2D基础模型兼容的有效输入格式,现有的3D表示学习方法难以充分利用丰富的2D视觉先验。该问题在当前3D场景理解领域是一个关键挑战,并非全新问题,但尚未得到充分解决。
- 关键思路提出POMA-3D,首个从点图(point maps)中自监督学习的3D表示模型。点图将3D坐标编码到结构化2D网格上,既保留全局几何结构,又兼容2D基础模型的输入格式。通过设计视图到场景对齐策略迁移2D先验,并引入POMA-JEPA架构实现多视角下几何一致的特征学习。这一思路创新地结合了2D模型的强大先验与3D几何结构,实现了无需RGB等外观信息、仅依赖3D坐标的通用3D理解。
- 其它亮点提出了ScenePoint数据集,包含6.5K房间级RGB-D场景和1M 2D图像场景,支持大规模预训练;实验验证POMA-3D作为骨干网络在3D问答、具身导航、场景检索和具身定位等多个任务上均表现优异,且仅使用几何输入;方法强调自监督与多视角一致性,具备良好的泛化能力;项目已开源,提供代码与模型,促进后续研究;未来可探索其在动态场景建模、跨模态融合及更复杂具身智能任务中的应用。
- 1. Masked Autoencoders Are Scalable Vision Learners 2. BEiT: Bert Pre-Training of Image Transformers 3. Point-BERT: Unified Pre-Trained Model for Point Cloud Understanding 4. Self-Supervised 3D Representation Learning with Viewpoint Prediction 5. Contrastive Multiview Coding 6. Emerging Properties in Self-Supervised Vision Transformers
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流