360+x: A Panoptic Multi-modal Scene Understanding Dataset

The IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR) 2024
2024年04月01日
  • 简介
    人类对世界的感知受到多种视角和模式的影响。尽管许多现有数据集侧重于从某个视角(例如自我中心或第三人称视角)理解场景,我们的数据集提供了全景视角(即多个视角和多种数据模式)。具体而言,我们包括第三人称全景和前景视图,以及具有丰富模式的自我中心单眼/双眼视图,包括视频、多通道音频、定向双耳延迟、位置数据和每个捕捉场景的文本场景描述,呈现出对世界的全面观察。图1展示了我们的360+x数据集的28个场景类别。据我们所知,这是第一个涵盖多个视角和多个数据模式以模拟现实世界中如何获取日常信息的数据库。通过我们的基准分析,我们在所提出的360+x数据集上提出了5个不同的场景理解任务,以评估每个数据模式和全景场景理解视角的影响和好处。我们希望这个独特的数据集能够扩大全面场景理解的范围,并鼓励社区从更多元化的视角来解决这些问题。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在提供一个多视角、多模态的全景场景理解数据集,以模拟现实世界中的信息获取方式,并通过五个场景理解任务评估每个数据模态和视角在全景场景理解中的影响和好处。
  • 关键思路
    本论文提供了一个全新的多视角、多模态的全景场景理解数据集,涵盖了第三人称全景和前视图,以及第一人称单眼/双眼视图,并且每个场景还包含视频、多通道音频、定向双耳延迟、位置数据和文本场景描述等丰富的模态。
  • 其它亮点
    本论文的亮点包括提供了一个全新的多视角、多模态的全景场景理解数据集,通过五个场景理解任务评估每个数据模态和视角在全景场景理解中的影响和好处,为全面的场景理解拓宽了研究范围。
  • 相关研究
    在相关研究方面,最近的研究包括但不限于:“Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout”(ICRA 2019),“360-Degree Video Understanding with Focus on Interactions”(CVPR 2019)和“Pano2CAD: Room Layout from a Single 360 Image”(CVPR 2018)等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问