3D Question Answering for City Scene Understanding

2024年07月24日
  • 简介
    3D多模态问答(MQA)通过使智能代理能够在3D环境中理解周围环境,对场景理解起着至关重要的作用。尽管现有研究主要关注室内家庭任务和室外道路自主驾驶任务,但在城市级别的场景理解任务方面,探索仍然有限。此外,由于缺乏城市级别的空间语义信息和人-环境交互信息,现有研究在理解城市场景方面面临着挑战。为了解决这些挑战,我们从数据集和方法两个角度研究3D MQA。从数据集角度,我们引入了一个名为City-3DQA的新型3D MQA数据集,用于城市级别场景理解,这是第一个在城市中融合场景语义和人-环境交互任务的数据集。从方法角度,我们提出了一种场景图增强的城市级理解方法(Sg-CityU),利用场景图引入空间语义。我们报告了一个新的基准,我们提出的Sg-CityU在不同的City-3DQA设置中实现了63.94%和63.76%的准确率。与室内3D MQA方法和使用先进的大型语言模型(LLMs)的零样本相比,Sg-CityU在鲁棒性和泛化性方面表现出最先进的性能。
  • 图表
  • 解决问题
    解决问题:本论文旨在解决城市场景下3D多模态问答的问题,通过引入新的数据集和方法来提高城市场景理解的效果。
  • 关键思路
    关键思路:论文提出了一种基于场景图的城市场景理解方法(Sg-CityU),通过引入场景图来增强空间语义信息,从而提高城市场景下3D多模态问答的准确性。
  • 其它亮点
    其他亮点:论文提出了一个新的数据集City-3DQA,该数据集是第一个在城市场景下融合场景语义和人-环境交互任务的数据集。实验结果表明,Sg-CityU在不同设置下均达到了63.94%和63.76%的准确率,表现出了鲁棒性和泛化性的最新水平。
  • 相关研究
    相关研究:目前的研究主要集中在室内和道路自动驾驶任务上,缺乏城市场景下的研究。值得关注的相关研究包括:《3D Multimodal Indoor Navigation with Deep Reinforcement Learning》、《3D Scene Graph: A Structure for Unified Semantics, Representations, and Lifelong Learning in 3D Worlds》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论