- 简介单个RGB或LiDAR是挑战性场景流的主流传感器,它严重依赖于视觉特征来匹配运动特征。与单模态相比,现有方法采用融合策略直接在运动空间中融合跨模态的互补知识。然而,这些直接融合方法可能会因RGB和LiDAR之间的视觉固有异质性而遭受模态差异,从而破坏运动特征。我们发现事件在视觉和运动空间中与RGB和LiDAR具有同质性。在这项工作中,我们将事件作为RGB和LiDAR之间的桥梁,并提出了一种新的分层视觉-运动融合框架用于场景流,它探索了一个同质空间来融合跨模态的互补知识以进行物理解释。在视觉融合中,我们发现事件在亮度空间中与RGB具有互补性(相对与绝对),并且在场景结构空间中与LiDAR具有互补性(局部边界与全局形状)以保持结构完整性。在运动融合中,我们发现RGB、事件和LiDAR在相关空间中互补(空间密集、时间密集与时空稀疏),这促使我们将它们的运动相关性融合以实现运动连续性。所提出的分层融合可以明确地融合多模态知识,以逐步改进场景流从视觉空间到运动空间。进行了大量实验来验证所提出方法的优越性。
- 图表
- 解决问题本篇论文试图解决RGB和LiDAR传感器在场景流中存在的异构性问题,提出一种基于事件的多模态融合框架,以提高场景流的准确性和可解释性。
- 关键思路论文提出了一种基于事件的多模态融合框架,将事件作为RGB和LiDAR之间的桥梁,通过逐步融合视觉和运动信息,从视觉空间到运动空间显式地融合多模态知识,提高场景流的准确性和可解释性。
- 其它亮点论文发现事件在视觉和运动空间中与RGB和LiDAR具有相似性,因此提出了一种基于事件的多模态融合框架。在视觉融合方面,事件在亮度空间上与RGB具有互补性,在场景结构空间上与LiDAR具有互补性。在运动融合方面,RGB、事件和LiDAR在相关空间中具有互补性,可以通过融合它们的运动相关性来提高场景流的连续性。论文在多个数据集上进行了实验,证明了所提出方法的优越性。
- 在相关研究中,最近也有一些关于多模态融合的工作,例如《Multi-modal Fusion Transformer for End-to-End Autonomous Driving》、《Multimodal Sensor Fusion for 3D Object Detection in Autonomous Driving: A Survey》等。
沙发等你来抢
去评论
评论
沙发等你来抢