Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry

简介

近年来，基于Transformer的架构已成为深度学习框架中序列建模的事实标准。在成功的例子的启发下，我们提出了一种因果视觉惯性融合Transformer（VIFT），用于深度视觉惯性里程计中的姿态估计。本研究旨在通过利用Transformer中的注意机制来提高姿态估计的准确性，与最近的基于循环神经网络（RNN）的方法相比，它们更好地利用了历史数据。Transformer通常需要大规模的数据进行训练。为了解决这个问题，我们利用深度VIO网络的归纳偏差。由于潜在的视觉惯性特征向量包含姿态估计的基本信息，我们采用Transformer通过时间上更新潜在向量来优化姿态估计。我们的研究还研究了数据不平衡和旋转学习方法对视觉惯性里程计的监督端到端学习的影响，通过在反向传播中为SE$(3)$群的元素使用专门的梯度来解决这个问题。所提出的方法可以端到端地进行训练，在推理过程中只需要使用单目相机和IMU。实验结果表明，VIFT提高了单目VIO网络的准确性，在KITTI数据集上与先前方法相比实现了最先进的结果。代码将在https://github.com/ybkurt/VIFT上公开。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在利用transformer中的注意力机制，提高视觉惯性里程计（VIO）中的姿态估计精度。同时，本文也探讨了数据不平衡和旋转学习方法对VIO的影响。
关键思路

本文提出了一种基于transformer的姿态估计方法，通过更新时间上的潜在视觉惯性特征向量来提高姿态估计精度。同时，本文还使用了专门的梯度来处理SE（3）群的元素，实现了端到端的训练。
其它亮点

本文所提出的方法在KITTI数据集上取得了最新的最优结果。同时，本文还探讨了数据不平衡和旋转学习方法对VIO的影响，并提供了开源代码。
相关研究

在最近的相关研究中，有一些使用transformer进行姿态估计的论文，如《End-to-End Learning of Visual-Semantic Grasping》和《End-to-End Learning of Geometry and Context for Deep Stereo Regression》。

Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry

提问交流

提问交流