DVLO: Deep Visual-LiDAR Odometry with Local-to-Global Feature Fusion and Bi-Directional Structure Alignment

向作者提问

NEW

简介

视觉和激光雷达数据中的信息互补性很好，其中图像的细粒度纹理和点云中的大量几何信息相辅相成。然而，要探索有效的视觉-激光雷达融合仍然具有挑战性，主要是由于两种模态之间固有的数据结构不一致：图像是规则和密集的，但激光雷达点是无序和稀疏的。为了解决这个问题，我们提出了一种具有双向结构对齐的局部到全局融合网络。为了获得局部融合特征，我们将点投影到图像平面作为聚类中心，并聚类图像像素围绕每个中心。图像像素被预先组织为伪点以进行图像到点的结构对齐。然后，我们通过柱面投影（点到图像的结构对齐）将点转换为伪图像，并在点特征和局部融合特征之间执行自适应全局特征融合。与单模态和多模态方法相比，我们的方法在KITTI里程计和FlyingThings3D场景流数据集上实现了最先进的性能。代码将稍后发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决视觉和LiDAR数据之间的数据结构不一致性问题，提出了一种局部到全局的融合网络，实现了双向结构对齐。
关键思路

论文的关键思路是将LiDAR点投影到图像平面上，以作为聚类中心，然后将图像像素作为伪点进行预组织，以进行图像到点的结构对齐。接着，通过柱状投影将点转换为伪图像，实现点到图像的结构对齐，并在点特征和局部融合特征之间进行自适应全局特征融合。
其它亮点

论文在KITTI odometry和FlyingThings3D场景流数据集上实现了最先进的性能，相比于单模态和多模态方法，本文提出的方法取得了更好的效果。论文还提到将会在后续公开代码。
相关研究

在这个领域中，最近的相关研究包括：1. 'MV3D: Multi-View 3D Object Detection Network for Autonomous Driving'；2. 'Joint 3D Proposal Generation and Object Detection from View Aggregation'。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问