EFM3D: A Benchmark for Measuring Progress Towards 3D Egocentric Foundation Models

2024年06月14日
  • 简介
    可穿戴计算机的出现为AI提供了一种新的上下文来源,即嵌入式自我中心传感器数据。这些新的自我中心数据配备了细粒度的3D位置信息,因此提供了一种基于3D空间的新型空间基础模型的机会。为了衡量我们所谓的自我中心基础模型(EFMs)的进展,我们建立了EFM3D,这是一个具有两个核心3D自我中心感知任务的基准。EFM3D是第一个基于高质量注释的自我中心数据的3D物体检测和表面回归基准。我们提出了自我中心体素提升(EVL),这是3D EFMs的基线。EVL利用所有可用的自我中心模态,并继承了2D基础模型的基本功能。这个模型在大型模拟数据集上训练,比现有方法在EFM3D基准上表现更好。
  • 图表
  • 解决问题
    本论文旨在解决嵌入在第一人称传感器数据中的新的上下文信息对于AI的影响问题,提出了一种基于3D空间的新型空间基础模型,并建立了第一个用于3D目标检测和表面回归的基准测试EFM3D。
  • 关键思路
    论文提出了一种基于3D空间的新型空间基础模型Egocentric Foundation Models(EFMs)及其基准测试EFM3D,通过Egocentric Voxel Lifting(EVL)模型,将所有可用的第一人称视角模态结合起来,从而实现了对于高质量标注的第一人称数据集中目标检测和表面回归的优化。
  • 其它亮点
    本论文建立了第一个用于3D目标检测和表面回归的基准测试EFM3D,并提出了一种基于3D空间的新型空间基础模型Egocentric Foundation Models(EFMs),该模型结合了所有可用的第一人称视角模态,并从2D基础模型中继承了基础能力。此外,该模型使用大型模拟数据集进行训练,实验结果表明其在EFM3D基准测试上优于现有方法。
  • 相关研究
    在近期的相关研究中,也有一些关于基于第一人称视角的目标检测和场景理解的研究,例如《3D Object Detection and Semantic Segmentation for Autonomous Driving: A Review》和《A Survey on Egocentric Vision for Human-Computer Interaction》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论