MOTPose: Multi-object 6D Pose Estimation for Dynamic Video Sequences using Attention-based Temporal Fusion

简介

在杂乱的拣选环境中，姿态估计模型面临着挑战。尽管深度学习取得了令人瞩目的进展，但单视角RGB姿态估计模型在杂乱的动态环境中表现不佳。将场景中丰富的时间信息融入模型中有潜力增强模型应对遮挡和动态环境的能力。此外，联合物体检测和姿态估计模型更适合利用任务的相互依赖性来提高两个任务的准确性。为此，我们提出了一种基于注意力的时间融合多物体6D姿态估计方法，该方法跨多个视频帧累积信息。我们的MOTPose方法将图像序列作为输入，在一次前向传递中对所有物体进行联合检测和姿态估计。它学会使用交叉注意力融合模块在多个时间步骤上聚合物体嵌入和物体参数。我们在物理逼真的杂乱拣选数据集SynPick和YCB-Video数据集上评估了我们的方法，并展示了改进的姿态估计精度以及更好的物体检测精度。
图表
解决问题

论文旨在解决单视角RGB姿态估计模型在杂乱的动态环境中表现不佳的问题，提出了一种基于注意力机制的多物体六自由度姿态估计的时间融合方法。
关键思路

该方法通过跨注意力融合模块学习在多个时间步长上聚合物体嵌入和物体参数，以提高模型处理遮挡和动态环境的能力。
其它亮点

论文使用SynPick和YCB-Video数据集评估了该方法，展示了姿态估计精度和物体检测精度的提高。该方法还实现了一次前向传递中的联合物体检测和姿态估计。开源代码可用。
相关研究

最近的相关研究包括：《Deep Object Pose Estimation for Semantic Robotic Grasping of Household Objects》、《PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes》等。

MOTPose: Multi-object 6D Pose Estimation for Dynamic Video Sequences using Attention-based Temporal Fusion

评论